近来,人形机器人在各类专业比赛中频繁亮相,却屡次出现摔倒、理解指令反应迟钝、扫码或搬运任务接连卡壳等问题。
尽管这些机器人代表了最先进的技术成果,但从实验室走向实际应用场景的道路仍然任重道远。
本文希望通过深入剖析人形机器人在发展过程中遇到的真实问题,并提出针对性解决方案,以促进人形机器人技术的改进迭代,缩短投入应用的周期。
人形机器人进厂,这四个问题是关键
在各类专业比赛中,人形机器人作为主角,往往大出风头,但也最容易暴露问题。一推就摔倒、语音交互反应迟钝等,这背后暴露出的人形机器人在平衡能力、稳定性、反应速度等方面的不足。
而从实验室迈向实际应用的道路上,人形机器人面临的挑战和困难更为复杂。语音语义理解迟缓是一个普遍存在的问题。在实际工厂环境中,工人通常通过语音指令与机器人进行交互。然而,现有语音识别技术往往无法准确快速地理解工人指令,导致机器人不能及时反应;
同时在需要快速移动或精确操作的任务中,机器人的动作往往显得缓慢且不够流畅,这可能导致任务执行时间延长,甚至无法完成某些关键任务。
微亿智造首席技术官马元巍认为,对于生产而言,降本增效是工厂主考虑的首要因素。人形机器人的竞争者是人类,只有当机器人的性价比超过人的时候,才会选择引进它。但目前即使抛开成本不谈,人形机器人执行任务的效率也远不如人类,这无疑会影响其进厂进程。
综合来看,当下人形机器人进厂难,面临以下四个问题:
1、硬件本体拟人化程度低
硬件本体是人形机器人的基础,其设计和制造质量直接影响到机器人的性能和功能。当下,人形机器人在硬件本体方面存在的问题主要有拟人化程度低、传感器集成和感知力差等。
目前的人形机器人在外观和动作上仍然与真实人类存在较大差距。如灵巧手的手指数量、关节数量、轮式足等,难以与人类环境自然融合,影响其在一些需要与人类密切协作场景中的应用效果。
其次,人形机器人进厂这件事暂时还停留在故事性阶段,更多用于基础设施搭建,其硬件和算法能力都还达不到工厂所需要的自主性和泛化性的需求。并且人形机器人在高温、高压、粉尘、高精度装配等特种作业环境里面,还需要一定特种防护。
最后,人形机器人需要集成多种传感器以感知周围环境。然而,目前许多机器人的传感器集成度不高,感知能力有限,无法获取全面准确的环境信息,进而影响机器人的决策和行动。
对此,不同技术厂商也在探索不同的解法。
以灵宝 CASBOT 的解决方案为例,灵宝 CASBOT采用自研一体化关节,将行星系列、斜波系列和直线推杆,分别应用于人形机器人的下肢、上肢和灵巧手,以提高关节的性能和可靠性,同时,不断优化传感器配置,提高集成度,以增强机器人对环境的感知能力。
在具体实施步骤上,首先,灵宝 CASBOT进行了一体化关节的研发和测试,确保其在不同工况下的稳定性和灵活性。其次,将优化后的传感器集成到机器人本体中,并进行大量的环境感知测试和数据采集,以优化感知算法。最后,通过反复的实验和调试,提高机器人硬件本体与软件系统的协同工作能力。
此外,从提高机器人在产线上的移动速度方面考虑,灵宝 CASBOT也建议应用方还可以引进轮足式或者底盘式的半人形以匹配自己的适用场景。
2、运动控制缺乏稳定性
运动控制是人形机器人实现各种复杂动作和任务的关键。目前在这方面人形机器人也存在平衡与稳定性低、动作规划和执行的精准度差等问题。
首先,带有多接触情况的全身运动控制仍然是挑战性问题,包含抓、握、推、拉、搬等动作的控制问题。
其次,在复杂环境中或执行复杂动作时,人形机器人难以保持稳定的平衡,容易摔倒,这限制了其在一些动态场景中的应用。
最后,动作规划不够精确,执行过程中容易出现偏差,导致任务完成质量不高,例如在抓取、装配等精细操作任务中表现不佳。
随着任务复杂程度的提升,人形机器人的全身运动控制也要分阶段进化。
第一阶段实现下肢运动的行走和平衡性,需要从四足迁移到双足,实现人形下半身平衡站立和稳定行走;
第二阶段实现全身运动的平衡行走,且特征是高抗扰、高仿人、直膝、随时启停,需要实现可在各种复杂地形行走、跑、跳、空翻等跑酷动作;
第三个阶段实现全身具备运动操作能力,运动操作一体化处理,带有多点接触、力触情况,具备环境感知、任务分解和动作执行的能力。
在实施上,灵宝 CASBOT 的首先进行任务分解和轨迹规划,通过将复杂的联系任务拆解为多个子任务,并对每个子任务进行精细的轨迹规划,确保任务执行的高效性和准确性;
然后控制量生成机制,将子任务的运动轨迹转化为具体的关节层面控制量,直接知晓底层控制器的操作,实现精确控制。这种方法也可以应用到复杂的多接触任务以及需要高精度规划和切换控制的长时序任务上。
3、空间感知数据和算法有待提升
空间感知是人形机器人理解和适应周围环境的重要能力。目前,人形机器人的环境识别与建模能力差、导航和避障能力弱等问题,影响了其在复杂环境中的自主导航能力。
为了实现自主移动和执行任务,人形机器人需要具备强大自主导航能力。准确地识别和理解周围环境,以便进行正确的导航和避障。
然而,无论是环境识别与建模还是自主导航上,人形机器人都还存在待解决的难题。例如,在复杂环境中无法准确识别障碍物或路径信息、容易迷失方向或无法准确到达目标位置等,既影响了机器人对周围环境的理解和决策,还限制了机器人的活动范围和自主性。
对此,中科视语的解决方案是利用多模态大模型通过融合多种感知数据,实现对环境的全面理解和精确建模,从而提高机器人的导航和避障能力。
具体来说,中科视语通过开发多模态大模型,将视觉、激光点云、深度图像等多种感知数据进行融合处理,实现对环境的全面感知。
同时,利用深度学习算法进行环境识别和建模,通过大量的数据训练提高模型的准确性和泛化能力。
在导航和避障上,采用基于模型预测控制(MPC)和强化学习相结合的方法,优化路径规划和决策策略。
具体到实施步骤,首先,采集和整理大量的多模态感知数据,用于训练多模态大模型;
其次,利用训练好的模型对环境进行实时识别和建模,并将结果应用于导航和避障算法中;
然后,在实际场景中进行测试和优化,不断调整模型和算法的参数,提高机器人的空间感知和导航避障能力。
最后,将优化后的系统集成到人形机器人中,进行整体性能测试和验证。
4、自然语言模型不能满足任务理解/推理能力
人形机器人的自然语言理解能力差、任务规划与决策存在局限性等问题限制了其在复杂任务中的应用。
在工业场景中,我们总能看到人形机器人不能准确理解人类自然语言中的语义和意图,导致对任务指令的错误解读或无法理解,影响人机交互的效率和效果。在面对复杂任务时,也难以制定合理的任务规划和决策策略,无法根据环境变化和任务要求灵活调整行动方案。
面对这样的问题,业内通用方法是通过不断优化算法和模型,提高人形机器人对任务的理解和推理能力,使其能够在复杂工业环境中自主完成任务。
主要路径则是,利用深度学习技术构建任务理解模型,对自然语言指令进行解析和理解。
结合工业场景的特点和知识,开发任务规划和决策算法,将复杂任务分解为可执行的子任务,并根据环境信息和任务目标进行合理规划。同时,引入强化学习机制,让机器人在实践中不断学习和优化任务执行策略。
通常实施步骤上会首先收集工业场景中的任务指令和相关数据,训练任务理解模型,提高其对自然语言的理解能力。
然后根据工业生产流程和任务要求,构建任务规划和决策模型,并在模拟环境中进行测试和优化。
接着将模型应用到实际人形机器人中,通过实际任务执行不断收集反馈数据,进一步优化模型和算法。
最后与人形机器人的硬件系统和其他功能模块进行集成,实现整体性能的提升。
从大量调研中,虎嗅智库判断,目前,人形机器人本体对工厂环境的适用性以及精准的运动控制是进厂最亟需解决的问题。另外,人形机器人也并不能马上取代一些工种或者一些产品,而是要优先突破没有人想去做的一些场景和现在的机器解决不了的一些场景。
未来,工厂基本构型或将从以人为中心转向以机器为中心
人形机器人的柔性操作能力是决定其能否被引进厂的决定性因素。但是企业的成本控制也是不容忽视的关键因素。
对此,虎嗅智库认为,在技术层面,人形机器人量产在即,提供行动自由度的执行器、灵巧手作为关键零部件,不仅需要提升其灵活性和敏感度,还需要降低成本。
同时,传感器技术需要不断升级,增加传感器的种类和功能,如融合触觉传感器、嗅觉传感器等,使机器人实现更全面的感知。
运动控制算法也要持续优化,引入更先进的人工智能算法,提高机器人运动的平稳性、精确性和适应性。
场景适应性也要提升,针对不同的应用场景,开发专门的应用模型和算法。例如,开发针对特定产品装配、检测等任务的模型。还要强化人机交互和协作效率,研究更加智能、便捷的人机交互方式,使机器人能够更好地理解人类意图并作出恰当反应。
同时,设计合理的人机协作模式,充分发挥机器人和人类的各自优势,实现高效协作。
最后,在成本控制与效益方面,探索多种机器人结合的生产和运营模式,根据不同任务需求,合理配置人形机器人、工业机器人、移动机器人等,实现资源的最优利用,提高生产效率和效益。
例如,在一些复杂的生产线上,人形机器人负责灵活操作和复杂任务处理,工业机器人承担高精度、高速度的重复任务,移动机器人负责物料运输和配送。
站在工厂角度,可以尝试在全新产线上整体替换人形机器人,这样可以清晰的核算成本与效益,判断投入产出比。也可以采用租赁的形式进行体验。这两种方式都可以帮助企业优化资源配置。
未来,伴随人形机器人普遍进厂,我们或许可以期待工厂基本构型从以人为中心转变为以机器为中心的转变。
注:文/李晓晓,文章来源:虎嗅智库服务,本文为作者独立观点,不代表亿邦动力立场。
文章来源:虎嗅智库服务