(甲子光年首席内容官)王博:去年年底的时候,我们说“AI一天,人间一年”,来形容2023年的感受。一年很快过去了,如果要用一个词来总结2024年AI的发展,你会用什么词?
(杭州宇树科技有限公司首席执行官)王兴兴:过去这一年对于机器人行业来说是“破立和新生”的一年。最近一年的机器人行业比过去几年都要热,技术跟过去十几、二十年差别非常大。我觉得过去的具身技术完全是“过去时”,当下以及未来的具身智能通用机器人完全是一个新的领域和机会。
王博:今天凌晨(2024年12月10日),OpenAI正式开放了Sora,并发布了更快的Sora Turbo,这个新版本的Sora能够生成最长20秒、最高1080P的视频。Sora声称自己是一个世界模拟器,当然后来学界、业界也在质疑说Sora根本不是世界模拟器,因为Sora无法做到真正的物理正确。物理世界模拟器或者说世界模型,对于具身智能的训练来说是一件非常关键的事情。宇树科技对于Sora的更新,以及物理世界模拟器的发展有什么样的观点?
王兴兴:今年年初Sora发布的时候,整个机器人圈包括我自己在内对世界模型来驱动机器人的运动都一直非常关注。海内外都有具身公司希望用视频生成的方式直接控制机器人,这个思路还是非常不错的,但我稍微提几个自己的想法。
目前,大家都希望如果能生成任何的视频和任何的场景动作,就可以控制机器人做任何动作,理论上可以把整个技术路线跑通。我的感受是,其实现在的视频生成能力对机器人来说基本上够用了,但强化学习对整个的闭环还不太够。
比如说,我要生成一个动作,让机器人去走路也好,端茶倒水也好,基本都能生成。但最大的问题是控制机器人的时候,要机器人跟物理世界交互,最后要达到接近100%的成功率,必须得把强化学习做好。但现在视频模型跟强化学习的控制结合,全世界都处在非常早期的阶段。如果在场的研究机构或者学者有兴趣的话,可以去尝试一下这件事,我觉得非常有价值。
机器人理解世界主要分两部分:第一是生成式模型,包括视频生成模型,能生成一个高层级的策略。比如说到什么地方去干嘛,把什么东西装在一起,或把什么东西都拿到这里,目前很多生成模型做得还不错。但是对于第二部分,真正要分配任务到机器人去执行的时候,让它达到100%的成功,这就需要把强化学习加在里面,把整个体系闭环做得更加准确一点。
目前,生成式模型的生成质量依赖于数据的质量。但是在真实世界里,有一个很大的问题是采集到的数据跟真实世界要执行的数据,质量差了一个数量级,导致用生成的质量直接去控制机器人,最终就是差了一点点。所以大家才会用到强化学习。
王博:接下来我们从底层技术到上层应用聊一下2024年关键话题。首先要聊的话题是“Scaling Law是不是撞墙了”,这是近一段时间,AI圈子内大家都会讨论的事。结合实际的研究和观察来看,“Scaling Law放缓”这件事情到底有没有发生?从具身智能的角度怎么样看Scaling Law这件事情?
王兴兴:我觉得Scaling Law像是一个定律,虽然大家现在在大语言模型上遇到一些瓶颈,但很多情况是当下的技术手段遇到瓶颈,而非规律本身遇到了瓶颈。在机器人领域,大家也非常关注,但目前我觉得大家还没有在机器人领域找到Scaling Law,模型、数据规模等方面相对来说更初级一点。
另外,大家为什么追求Scaling Law,很大的原因是当下世界上相对比较简单的,用几个人或者几十人、几百人用系统性工程化的方式就能解决的问题,都已经解决得非常好了。剩下的没有解决的问题都是复杂性问题——比如无人驾驶,靠堆人、堆时间、堆钱也解决不好,只能靠新的方式。所以在机器人领域,大家希望有Scaling Law,通过堆数据就可以解决问题。
但是机器人领域也有部分企业太追求数据的规模。我认为,现在具身智能领域最大的问题是整个AI模型的架构还没有做出来,模型能力不够的情况下单纯堆数据不太可能把整个路线跑通。我们在模型探索方向上应该花更多的时间。
王博:下面聊一下AI应用。去年我们在甲子引力年终盛典上聊“到底什么时候能出现一个Killer APP(杀手级的应用)”,那么今年有没有让你印象特别深刻的一款AI应用?
王兴兴:说实在的,我个人感受是没有特别吸引我的AI应用。我现在很期待个人助手,比如能帮忙回一下微信信息。我一直希望微信什么时候能整合一下大语言模型,我有非常强烈的诉求,哪怕付费我也非常愿意。
王博:今年具身智能非常热,无论是在英伟达GTC上,还是在今年的世界人工智能大会上,宇树科技的表现都非常亮眼。我们今年看到了具身智能领域有很多共识,比如多模态感知的重要性。那么,你认为目前具身智能领域最大的“非共识”是什么?
王兴兴:大部分情况下,社会大众的共识其实不是特别准确,或者特别有价值的事情。如果一家公司或者一个产品做得好,你必须有很多非共识,从而发掘未来一到两年,甚至三到五年以及更长远的技术方向,这是非常重要的事情。
具身智能的非共识现在不太好说,但我认为,大家对模型的创新和底层的技术关注度不太够,相反对于多模态大模型、数据的关注度有点过高了。因为我一直觉得,假设未来有非常理想的AGI,数据反而是次要的点。大家更应该关注提升整个模型的能力,可以更高效地利用数据、总结规律,并可以持续自我学习。
自我学习不需要加更多的数据,就跟人类似。我们只需要给初级的数据,理想状态下模型就可以自我学习与自我探索。但现在很多情况下,给一个模型一个任务,很多情况下如果第一次尝试没有成功,大概率后面再尝试也不会成功,因为它没有自我迭代与自我思考能力。
快问快答
在现场,我们还进行了快问快答环节:
王博:如果你现在有十亿元人民币,你最想把钱投在哪里?
王兴兴:分发给所有具备创新能力的学者,共同推进行业发展。
王博:在人工智能领域,你最钦佩的人是谁?
王兴兴:让我直接选一个人非常难选,我觉得所有目前在AI领域做了卓越贡献的学者我都非常钦佩。
王博:下一个问题是,过去一年你做得最正确的决定是什么?
王兴兴:加大了对人形机器人的投入。
王博:预测一下人工智能领域2025年一定会发生的一件事情是什么?
王兴兴:2025年,至少相对通用的机器人模型能做出来。
注:文/甲子光年,文章来源:甲子光年(公众号ID:jazzyear),本文为作者独立观点,不代表亿邦动力立场。
文章来源:甲子光年