北大团队中稿CVPR 大模型助力机器人理解物理世界 - B2B

计算机视觉领域顶会CVPR 2024的接收结果出来啦！

「甲子光年」独家获悉，北京大学前沿计算机研究中心助理教授、博士生导师董豪团队发布的最新具身大模型研究成果——ManipLLM的论文已被CVPR 2024接收。

只靠一张物体图片，大语言模型就能控制机械臂完成各种日常物体操作，这在以前是几乎无法完成的事情。

ManipLLM将这一愿景变成现实，在提示词的引导下，大语言模型可在物体图像上直接预测机械臂的操作点和方向。

简单来说，ManipLLM就是让以机械臂为代表的机器人可以听懂人下达的任务命令，并根据其看到的图像，通过适当的动作来完成这项任务。

“我们的大模型重点是为了解决可泛化的物体操作。”董豪告诉「甲子光年」，“我们提出了使用大模型直接在物体上输出动作的方法，而不是输出机器人本体的动作，这样可以提高机器人的泛化能力。”

从ManipLLM的演示视频可以看出，同样的打开的指令，机械臂会根据其面对不同类别的物体，选择合适的打开方式。

ManipLLM试图让机器人理解指令并选择动作，这不仅仅是让机器人可以听懂人话，而是开始理解与物理世界的交互方式。

1.如何赋予大语言模型直接操控机械臂的能力？

“形魂相融”被认为是为未来机器人的发展目标。其中人工智能是“魂”，机器人是“身体”。AI为机器人注入思索之力，而机器人则将思与智化为实践。

传统机器人的操作高度依赖于人工输入准确预测接触点和执行器方向的信息。

比如，我们想要教机器人如何准确地拿起一个杯子或打开门，就需要让机器人非常精确地知道从哪里抓取杯子，以及如何移动它的手臂来打开门。

对人类而言看似简单的动作，对机器人而言却是一个繁重的“大工程”。首先我们需要拆解动作，再告诉机器人每一个动作的具体细节，像这个动作的起点在哪里、手臂要如何移动等。

如果当我们只在模拟世界里训练这些机器人时，它们学会的技能往往只适用于那个模拟世界里的几个特定任务。如果想把机器人放到真实的世界中，面对成千上万种不同、复杂的物体和情况时，它们往往会不知所措。

大型语言模型是一种全能型工具，它能够理解世界并生成描述性的语言，但大模型并不能直接指挥机器人去执行具体的任务。

如何赋予大模型直接操控机械臂的能力？

为了解决这一问题，董豪团队想到了利用那些已经擅长于“思考”和解决问题的大型语言模型，来帮助机器人更好地理解和适应真实世界的多样性。简单来说，就是通过一种特殊的训练方法，让这些语言模型不仅能“思考”，还能教机器人如何在真实世界中灵活地“动手”。

具体而言，通过以下三个学习阶段，ManipLLM实现了具有泛化能力的以物体为中心的操纵。

首先是类别级别（category-level）：模型能够识别物体类别，理解不同物体的特性，比如一个杯子是用来喝水的，门是用来进出的等。

其次是区域级别（region-level）：让机器人根据这些理解来推断在特定情况下应该怎么做，反映哪些部位更可能被操纵。

最后是位姿级别（pose-level）：即让模型帮助机器人预测在操作物体时应该采取的最佳姿势。

董豪说：“训练过程中，只有模型的一个小部分会被更新，这样既保留了语言模型的原有智能，也增加了它的操作能力。”

学习了基本操作之后，这个方法还会用一个特殊的策略来优化操作过程，这个方法不用额外学习，就能让机器人的动作自如地跟着物体的形状和方向走，通过微调机器手臂的转动，一点点地对物体进行精细操作。具体来说，就是尝试各种不同的移动方向，找到最合适的那个继续执行。

到了最后，机器人操作的时候只需要两样东西：一句话的提示和一张照片。它就能预测出如何操作物体，包括物体的位置和需要旋转的角度。这些信息会被转化成3D空间中的动作，使得机器人看到的图片上的场景就能变成现实中的动作了。

“ManipLLM是一个开源的多模态大模型，它能够生成机器人可理解可执行的操作描述，这个描述可以通过机器人动力学来执行任务，可适用于任意机器人。”董豪解释道。

2.机器人理解世界和执行任务能力的突破

大型语言模型对具身机器人的发展影响深远，同时，也极大地拓宽了机器人理解世界和执行任务的能力。

通过这些模型，机器人不仅能够解析和理解复杂的人类指令，还能预测和规划其物理动作，实现更加精准和自然的交互。这种能力能让机器人可以更好地融入我们的生活环境，无论是简单的家务助手还是高度复杂的工业操作，都能以前所未有的智能和灵活性来执行任务。

在仿真和真实世界中，ManipLLM在各种类别的物体上均取得了令人满意的效果，证明了其在多样化类别物体中的可靠性和适用性。

与RT2等输出机器人本体动作的策略相比，该方法侧重于以物体为中心（Object-centric）的操纵，关注物体本身，从而输出机器人对物体操纵的位姿。以物体为中心的操纵策略，设计针对物体本身特性的表征，与任务、动作、机器人型号无关。这样可以将物体和任务及环境解耦开来，使得方法本身可以适应于各类任务、各类机器人，从而实现面对复杂世界的泛化。

“大模型将自身的通用及面对未知场景的泛化能力，赋能具身机器人，助力加速机器人解锁更多任务，实现通用的智能体，为未来的人机共生展现无限的可能性。”董豪对「甲子光年」表示。

大模型的引入，不仅推动了机器人技术的革新，也为未来机器人的自主学习和适应能力定下了新准线。

目前董豪的研究重点包括可泛化的机械臂操作、机器人视觉和移动设备自主决策等方面。董豪在NeurIPS、ICLR、CVPR、ICCV、ECCV、ICRA、IROS等国际顶尖会议/期刊上发表论文50余篇，Google Scholar引用5000余次，多次担任国际顶尖会议如NeurIPS、CVPR、AAAI、ICRA的领域主席或副编委。其领导了多个开源项目，例如TensorLayer和OpenMLsys，在ACM Multimedia 2017获得了最佳开源软件奖，并在2021年和2022年获得了OpenI杰出项目奖。

注：文/苏霍伊，文章来源：甲子发现，本文为作者独立观点，不代表亿邦动力立场。

文章来源：甲子发现