对话清华教授陈文光：如果大模型不再拼“大”？ - B2B

如果当大模型不再追求“大”，会发生什么？

这是不久前丰叔和陈文光教授深度对话的话题之一。陈文光是清华大学计算机科学与技术系教授，他也在蚂蚁集团兼任副总裁和蚂蚁技术研究院院长。他长期研究高性能计算编程模型和编译系统，近几年在以图计算系统为代表的新一代大数据处理系统方面也取得了进展，在学术界和产业界都有较深的积累。

他们聊天的一个背景是：过去两年，AI尤其是大模型似乎成了全创投行业的希望。围绕大模型的讨论，似乎都与“大”有关，说得夸张点，只与“大”有关。伴随着模型的变大，我们看到了算力之争、英伟达飞升的股价，我们也对AGI（Artificial General Intelligence，通用人工智能）产生了无尽的想象。

另一个他们聊天的语境是，最近国际资本市场上，大模型相关头部企业的股价出现了波动，围绕大模型的讨论也出现了不同的声音。

那么，模型的“大”是必须的吗？AI向前发展，只有拼模型规模“大”这一条路吗？

围绕这个核心话题，丰叔和陈文光教授一起探讨了：

大语言模型是如何发展起来的？

回到9.3和9.11谁大这个问题，我们从语言中究竟能学到多少智能？

接下来，大模型还能在什么方向上取得显著突破？

如果我们不再只追求模型的“大”，英伟达等公司的增长会遇到挑战么？

AI应用有什么机会？今天的大模型能力，真的能支持做情感陪伴吗？

大模型的经济账怎么算？在什么类型的应用上，大模型既能够超越使用者的预期，又使得使用者愿意为之付费，且他们付的钱能覆盖如此大规模的资源消耗的成本？

在处理多模态数据时，当前的大模型面临哪些技术难题，我们与机器的交互方式会被进一步改变吗？

大模型的风正在吹向具身智能。基于具身智能机器人的基座大模型是否能实现，换句话说，李飞飞教授的创业方向靠谱吗？

大语言模型的两条演进脉络

李丰：今天我们请到陈老师来一起探讨当前大模型的发展态势，以及近期的市场波动背后的深层次原因。当然今天的讨论，主要是代表我和陈老师个人，陈老师是计算机行业比较资深、专业的从业者，我更多的是对AI方向比较感兴趣的外行。我们先请陈老师简单自我介绍一下。

陈文光：我主要做高性能计算，即大规模并行计算的研究。在大模型领域，我参与过训练几个大模型，其中包括一个有上百万亿参数的模型叫“八卦炉”。尽管如此，我并不是专门研究 NLP（自然语言处理）或算法的。如果说李丰是从外行的角度来看问题，我可能更像是半个内行和半个外行的结合。

李丰：开始讨论之前，我们回顾一下大模型的演进。大模型本质上是 AI 的一种表现形式和技术进步。你如何看待这一波由大模型引发的投资、创业浪潮？这一波热潮是否有明确的发展脉络？

陈文光：虽然都是基于Transformer的预训练语言模型，2018年BERT发布时，和 GPT 的差别不是很大，但在当时并没有引起太大的反响。

2022 年 11月，随着GPT-3.5的推出，尤其是ChatGPT的发布，大家都感受到技术上的飞跃——ChatGPT中对话功能的上线，让它得到了广泛的关注。

GPT-4的发布是另一个里程碑。GPT-4解决了GPT-3.5的许多问题，特别是在事实对齐方面，GPT-4的表现很出色，其能力达到了新高度。

接下来，今年春节期间的Sora又推动了多模态技术的发展。在GPT可以处理文字、图片的基础上，Sora实现了较长时间的视频的生成，不过后来它的发展没有达到人们的预期。Sora目前为止还没有开放服务，反而是国内的一些项目已提供了实际的应用。

总结一下，我觉得大致的脉络是，大语言模型从自然语言的对话，发展到高准确度和多模态的GPT4，再到长时间的多模态视频的生成并做到了一定的一致性。

另一条发展脉络是开源项目。以 Meta（Facebook 母公司）的LLaMA为例，最新的LLaMA 3使用了超过10T以上的token和更大的模型规模，有很好的效果。

国内的模型发展也很迅速，从最近的表现来看，像通义千问、智谱AI的 GLM 等模型不仅在机器评测的benchmark上表现出色，在 LMSYS组织的由人类评测的Chatbot Arena上也达到了很好的性能，接近了GPT-4的水平。这些第一梯队的国产模型，整体差距可能很小，很难说谁比谁好。

李丰：从语言角度看，基于中文的大语言模型和基于英文来做的大语言模型相比，在语料、结果、计算、技术上有什么差异或者说优势吗？这些差异是否足以形成长久的优势？

陈文光：可能不能算是一个长久的优势，但是高质量的中文语料很稀缺，公开的就更少。我们看到，像LLaMA这样的开源模型，在中文处理能力上不如国内的一些模型。原因可能不在于训练方法或技术结构，而更多在于数据。国内的公司投入了更多精力来收集和处理高质量中文语料，因此目前达到了更好的效果。

从大数据到图像识别，再到 ChatGPT：AI 热潮的风起云涌

李丰：从投资的角度来看，可能有一个更长的轨迹。

中美都经历了一波与大数据相关的创业热潮，美国在移动互联网时代就起步，中国起步稍晚一些，大概从2009或2010年开始。经过三到五年的发展，大家逐渐建立起了较好的数据基础设施，数据处理、存储与调用的能力大幅提升。

接下来是AI的第一波热潮，或许可以称之为计算机视觉 (Computer Vision，简称 CV) 的热潮。这一波里的代表性公司是“亚洲四小龙”。CV 主要处理的是图像特征，尤其擅长人脸的特征提取。

对于当下这一波的大模型技术而言，Transformer的提出是一个重要节点。作为一种强大的特征提取器，Transformer这个技术的演进是怎么发生的？

陈文光：Transformer是2017年那篇名为“Attention is All You Need”的论文提出的。最初，Transformer主要用于翻译任务，而不是在对话这样的应用场景，因此它的架构是以 encoder-decoder（编码-解码）的模式为主。

简单点说，Transformer能够同时考虑两个序列之间的所有关联，通过不断训练权重，最终确定这些序列之间的关系哪个更紧密。以往的 NLP 模型，在处理长序列时容易丢失状态，而 Transformer 通过摊平整个序列，哪怕是前后相隔很远的token，它也能够考虑到它们之间的关系。

这个特性使得Transformer特别适合并行处理。通过并行处理，GPU的计算效率得以大幅提高，在多机环境下也能很好地并行执行任务。

李丰：接下来还有另一个节点，就是Diffusion model的提出。我个人的理解是，Diffusion在传统的收敛性抽象过程当中，可以在合理的方向上做一点泛化和延伸。你能不能介绍一下Diffusion在大模型的发展脉络中起到的作用，以及它是什么时候开始产生影响的？

陈文光：Diffusion和语言模型是两条平行发展的技术线。以前，生成内容的技术主要是GAN（Generative Adversarial Network，生成对抗网络）。

现在的主流观点认为，Diffusion是GAN之后的模型，在丰富度上更好，因此有更多的研究工作集中在Diffusion上。不过GAN也有它的优势，计算速度更快，成本更低，在同样精度和分辨率下，它的计算代价会更低，图像的真实感更胜一筹。

大模型，就要越拼越“大”吗？

李丰：最近我观察到两个现象，一个是AI领域的热潮主要集中在大模型上。在过去两年，模型主要是在拼“大”，参数越做越多，文本输入也越来越长。这带来了两个后果：

一是资源消耗增加，这导致了英伟达等公司推动的算力竞争，因为你需要更多的计算资源来支撑更大的模型。

二是模型的“大”也带来了超越预期的生成效果，比如生成的文本变得更加完整、自然，甚至更符合逻辑。

这两个方面给了人们在投资和创业上的想象空间：一方面与算力相关，另一方面AGI相关。你怎么看待这种“大”的趋势？这种拼“大”的过程是否还会持续下去？

陈文光：我可以从超级计算机的角度来聊这个话题。超算的发展一直遵循着一个规律，峰值性能每 10 年增长 1000 倍。其中，大约有 100 倍的增长来自算法优化和单芯片扩展，而另外 10 倍的增长则依赖于规模的扩大。因此，超算的成本越来越高，一台机器的价格从几千万到几个亿，再到几十亿。

但是当成本达到几十亿后，再进一步增长就变得很困难了。因为假设你要投入几百亿去造一台超级计算机，自然会有人质疑这几百亿究竟能带来什么实际效益。

在 AI 集群的规模扩展上，其实也面临类似的问题。首先是投入成本实在太高。其次在工程上也面临许多挑战，比如供电、散热。

以万卡集群为例，它的平均无故障时间（MTBF）只能维持几个小时。如果是10万卡集群，平均无故障时间可能会缩短到10分钟级别——因为你还需要采用各种容错技术，如果要做好容错，可能会花掉5分钟时间，这意味着你实际可用的训练时间就只有一半。

再进一步扩大规模时，各种工程和成本的限制会让训练效率大幅下降。此外，10万卡的通信本身也是一个很大的挑战。

因此，在性能和成本收益上，再进一步扩大机器规模的边际效益可能并没有那么明显。

另一个是数据问题。目前主流的优秀模型大概使用10T token进行训练，在这个规模下，需要用到几万卡来进行训练。但如果我们没有足够多的数据，那么也不需要更大的机器来进行计算。

所以，我的看法是，万卡的规模是肯定没问题的，十万卡是可能的，但是从成本和收益的角度来看，百万卡不具备太高的实际收益。

李丰：如果我们不再一味追求“大”，很多附加的问题可能会随之而来。比如，如果规模不再扩大，GPT 是否还能如大家所期望，继续超出预期？

陈文光：我不太好做具体的预测。毕竟ChatGPT对我们所有人来说都是一个大惊喜。OpenAI用八年憋了个大招，现在，虽然GPT-5迟迟没有发布，但我们不在内部，可能不确定具体原因是什么，到底是模型没有达到革命性的预期，还是说现在 GPT-4o 市场反应不错，大招可以后续再发布。

至于还有哪些事是过去我们不能干，或者干得不好，然后现在大模型一下就能干得很好的？这个暂时我很难去想象，也说不好这是我们人想象力的局限，还是说这是这个领域的现实。

9.3和9.11谁大？

从语言中究竟能学到多少智能？

李丰：这一轮大模型都是从自然语言起步的，即从文本学习和处理中发展出来的。这引发了一个第一性原理的问题：语言本身到底代表了多少智能？语言更多是一种表达方式，还是思考方式？一个从小没有接受过语言训练的人，他的大脑是否仍然具备复杂的抽象思考能力？

我看过不同的讨论，我个人比较认同的观点是，语言本身主要是一种表达形式。它可以用来进行抽象思考和组织归纳，但它不一定是我们大脑在思考问题时必须依赖的工具。那么，我们从语言中究竟能学到多少智能？

陈文光：这个问题可能涉及到几个层面。

首先，如果我们指的是狭义的语言，那它肯定不能涵盖所有的知识。比如说，一个化学方程式要用自然语言来表达就很困难，但如果我们将“语言”这个概念泛化一下，不仅包括自然语言，还包括图片类的内容，甚至包括某些过程类的表达，比如编程。这就回到了 AI 研究中的一个老话题——知识表示。在知识表示的领域中，有各种各样的表示方式。

从一个角度来看，现在的大模型其实是通过神经元网络的方式，将自然语言中的某些知识进行表示，然后我们可以检索这些知识，或者用它来完成一些任务。

所以，回到你的问题，我理解你想表达的是自然语言的学习可能存在局限性，站在智能的高度上，有些内容确实无法清楚地通过语言来表达，或通过阅读文档来学习。

我最近也在思考一个问题：能否让大语言模型读完一本物理教材，然后解答后面的习题？这个现在还是不能的。

李丰：这就类似那个9.3和9.11谁大。

陈文光：对。这个现在是不能的，中间有一个gap，要解决这个gap，需要用其他方式来表达物理教材中的一些知识，而不仅仅是通过自然语言。不过，目前这个问题还在讨论和探索的阶段。

李丰：这轮的大模型热潮核心是语言大模型，其基础是将过去40年积累的文本的数据化，输入计算机并进行计算。假设我们能够学习和计算所有这些文本内容，我们能学到多少智能？

陈文光：这个问题涉及到智能的定义。当前大模型能够做的事情是，从理解的角度看，输入一篇文章后，它可以帮助总结和回答问题；从生成的角度看，它可以根据一些提示来生成文档或主题。

李丰：是的，从知识层面看，因为大模型是从文本数据中学习的，它已经涉及到了一定程度上多样且复杂、不同质量的数据。所以，文本对文本已经达到了一定的水平。但在文本对文本之外，我有一个疑问：character AI 这样的情感陪伴应用，能否真的实现从文本到情感，再到共情和高情商的反馈？又或者说，今天大模型的能力，真的能做情感陪伴吗？

陈文光：在这个问题上，我可能比你乐观一些。首先，不谈情商，现在大模型完全可以模拟一个人说话的方式和风格，来与人对话。用某种情感模式来说话，愤怒或愉快，这也是可以做到的。真正有挑战的，是理解对方的状态，然后共情，接着通过某种路径去影响对方的情绪，比如让对方心情变好。以我目前对 AI 的理解，只要有足够多的例子，AI 是可以学到的。

打个比方，先把隐私话题放一边，假设我们能获取到心理医生与患者的对话数据，并且数据量达到一定程度，AI学到这些情感路径并不是完全不可能的。

李丰：从表达到情绪，再到共情，这个过程存在多层抽象。也许从文字本身来抽象情绪相对容易，但是，理解情绪背后真正的感受就要复杂得多？

陈文光：这实际上涉及到整个AI领域内一个重要的争论：是端到端学习，还是功能分解？事实上，我们尚未完全搞清楚语言模型的推理机制。有时，它并不是逐步推理过去，而是直接跳到了结果，但它依然能够在逻辑链条上做出合理的推理。

以CNN（Convolutional Neural Network，卷积神经网络）识别人脸为例，我们并不一定需要明确地告诉计算机，人脸上有多少个特征点，因为神经网络有端到端学习的特性，只要有足够多的数据集，模型就能够学习并整合这些信息，尽管我们不一定知道它内部是如何处理的，但它确实能够学会。

李丰：换句话说，如果我一直表达某种情感，模型就能够学习这种模式，并在类似情境下做出相应的符合预期反应。AI不是即兴发挥的，它还是基于学习过的数据来做出反应。

陈文光：模型的神奇之处就在于此。

大模型的经济账怎么算，

接下来的想象空间在哪里？

李丰：作为投资人，我从外部视角来看，如果大模型不再继续变“大”，英伟达等公司的股价可能会有点挑战。因为大家如果不再激烈地进行算力竞争，大模型的想象空间多少会受限。

此外，如果大模型没有持续的技术突破，人们就会回过头来算经济账——大模型在什么类型的应用上，既能够超越使用者的预期，又使得使用者愿意为之付费，且他们付的钱能覆盖如此大规模的资源消耗的成本。

关于模型的“大”或者说“大”作为模型竞争的方法之一，我有两个疑问。

第一个是，现有的大模型如果不再进步，它能否提供让用户愿意付费且能覆盖成本的使用体验？

另一个是，通过不断扩大模型规模，我们是否能够最终实现AGI或生成式人工智能。这是大家对“大”的一种想象。

陈文光：这里面有两个问题。

首先是“大”能够在多大程度上提高模型性能？在纯粹的语言处理方面，这取决于是否能通过不同的方法获取到更多的大规模语料。现有的语料已经达到了一定水平，合成语料在自然语言预训练中使用得还不多。就像孩子学习语言，当他达到了相当于 15 岁的水平，再费劲提升到 16 岁，效果也不会太显著。

另一块值得关注的是多模态数据。多模态数据的引入，特别是视频、图片、图像等，可能会成为下一步提升模型能力的关键。视频数据量非常大，甚至在某种程度上超越了自然语言的范围。自然语言和视觉的结合，未来还可能引入触觉，这将进一步推动多模态的发展，也会对模型能力提出更高的要求。

多模态能力可以通过更多的数据和更大规模的模型来提升，但这需要机器规模与数据规模相匹配。如果数据规模不能达到10倍的量级，机器规模也不需要扩大10倍。从这个角度看，我认为模型规模还有可能进一步扩展，但很难想象会像过去那样 10 倍地增长。

李丰：我想插一句，行业内经常提到的“规模定律”（Scaling Law）具体指什么，想请你给大家科普一下。

陈文光：Scaling Law大致的意思是，当我们使用更大参数规模的模型时，比如达到几千亿参数，那这个模型所需的数据量可能会达到几万亿的token，而对应的计算需求可能需要几千甚至上万块GPU卡来支持。

在这个过程中，参数规模、数据量和计算能力是匹配的。大家希望通过扩大模型规模来获得更好的效果，但这也需要更多的数据和更强的计算能力。

李丰：它或许不是一个简单的线性推导的过程？

陈文光：有些研究指出，给一定的计算量或数据规模，我们可以选择一个最合适的模型构建方式，这样可以在有限的时间内达到预期的训练效果。这些研究通常是在小模型上进行验证，然后推广到大模型，主要是帮助优化训练过程。

比如，通过预测Loss（Loss Function，损失函数）的下降曲线，我们可以判断训练是否出现了问题，让整个训练过程变得更加可控。

以我目前参与训练几个模型的有限经验来看，确实模型规模越大，Loss的下降速度明显越快。不过从200B到500B再到1万亿，Loss到底下降多快，会loss多少，这很大程度上还是实验科学。即便它不一定是线性的，但非线性函数也可以去做一些拟合。

李丰：这个合理。我们回到规模是否能带来更大的智能这个话题。

陈文光：我认为还有一定的增长空间，但不会像过去那么迅猛了。一方面，大家可能不会愿意投入那么多资源。另一方面，从性价比的角度来看，规模问题也没有那么重要。尽管摩尔定律的进展速度有所放缓，但它仍然没有完全失效。我们还可以通过其他技术手段，来降低成本。

所以，如果要考虑短期内比如三五年的投资回报，这些问题很关键。但从长期科研的角度来看，这个问题可能没有那么紧迫。从长远来看，只要能够实现智能，未来的技术突破将使得计算成本变得更加可控。或许有一天，我们会有便携式的核聚变发动机，那耗电问题就不是个事儿了。这些新技术一开始的成本肯定很高，但往往随着时间的推移，成本会逐渐下降，变得经济上可行和可盈利。

李丰：从投资的角度来看，如果大家不再拼“大”了，就会受到性价比的约束，模型可能会开始往回收敛，转向去驱动应用的落地。换句话说，只有当焦点从“大”上移开时，应用落地才会真正开始加速。

陈文光：目前这方面已经有一些趋势。像百度、Google、微软等公司都在做一些较小规模的模型。这些小模型在特定领域并不需要百科全书式的能力，而是结合了相对通用的能力和领域特定的能力。甚至业界也有人开始反Scaling law，尽管这可能不是共识，但在某些应用场景中，使用更小的模型来获得相当于大模型的能力，在性价比上，确实有优势。

李丰：如果模型规模不再继续扩大，大家可能会回过头想，单靠扩大模型规模是否真的能通向通用人工智能？换句话说，大家对大模型的想象力是否会因此遇到天花板？

陈文光：首先，认为“大”可以通向通用人工智能，这本身就是一个没有太多依据的猜想。很多人可能觉得大模型能力更强，但是否能达到通用人工智能，这一点并没有达成广泛共识。

其次，大模型的“大”这个发展方向可能会放缓，但不一定会终止。“大”的趋势变缓，也并不意味着算力的需求就一定会下降，因为模型的训练和推理都需要用到算力，即便模型训练对算力的需求少了，推理对算力的需求必然会大幅提升。

李丰：同意。这也是我们为什么投了推理芯片方向的公司。

大模型的逻辑与难题：从文本到多模态输入

李丰：每个人都有自己的一套语言模型，我从观察者的角度来看，自然语言表达具有以下几个特征：

第一，理论上语言是可以穷尽的，但由于存在几乎无穷多的搭配方法，它实际上是不可穷尽的。比如我们常用的词汇量大概是5到6万个词，这些词如何组织和连接，理论上是可以穷尽的，但实际上很难做到。

陈文光：这就是个经典的组合爆炸的问题。它的复杂度是指数级的，计算机再有能力，也很难穷尽。

李丰：是的，这是第一句话。其次，语言有粗略的规则约束，不管我们是自我表达还是听别人表达，道理上我们都有个吸收理解信息与评价的大模型，否则，我们就无法理解或评价别人的说话质量、作文水平等。

当然，每个人的表达能力有所不同，但大多数情况下可以通过多看、多说、多学、多练等方式得到提升。换句话说，我们都在表达同一个内容，但在遣词造句的过程中，如果我的语言大模型更好一点，我就会比别人表达能力更强。大概这就是语言本身的特征。

此外，语言和思考之间也有差距，表达越具体，可能丢失的信息就越多。

如果我们从大语言模型的角度来看这些特征，当计算机学到足够多的字及其组合形式后，并结合一些客观的评价数据输入，它就能够一定程度上模拟我们大脑中的语言模型。

这个的前提是，文本是一维的、是线性的，一个字一个词接着往下排。基于语言模型的生成模型实际上处理了足够多的词汇或文本之间的关系，并在某些维度上约束了这些关系，从而输出，生成新的文本。

陈文光：大面上我理解应该是这样。

李丰：就像当年AlphaGo下围棋的迭代一样，理论上它也是一个组合爆炸的问题。AlphaGo最初也是学习人类棋谱，后来它能够自己寻找最佳的下棋路径后，人类顶级棋手就再也无法战胜它了。

我提这个例子是因为，从投资人的角度，我们在思考什么会适用于大语言模型的逻辑。比如说编程与大语言模型就有相似性。

陈文光：编程语言有一个比自然语言更好的特点，就是可以编译并执行，如果编译不通过或者执行失败，你就知道代码不对。因此，编程有一个更强的自我反馈机制，它甚至不一定需要人来参与，可以通过这种机制实现更好的对齐和优化。

李丰：那接下来我们讨论多模态数据相关的问题。今天的大模型已经发展到可以处理一维文本和字词关系的水平了，我理解“文生图”的过程本质上还是在表达一个句子，只不过是将句子中的内容转化为图像中的某个元素。因此，如果有类似Copilot的辅助工具，文生图是可行的。

但如果图片作为输入，用来解析其中的元素关系或者场景，由于图片至少是二维信息，甚至可能包含更多复杂的视觉元素，直觉上看，从前面提到的逻辑延展到这一步，似乎是难以实现的。

陈文光：因为直接处理像素的计算量太大，现在主流的多模态大模型处理图片的方式是，像DALL-E或Sora模型那样，将图片切割成一个个“小片”，称之为“patch”，然后将它们作为一维序列输入到模型中进行处理。

在自然语言处理中，我们通过分词来形成token；在图片处理中，我们通过将图片切成patch来生成token。当然，图片的上下部分是有联系的，当我们把图片切成一维序列后，似乎丢失了其中的一些二维信息，但其实并没有。因为自然语言表面上虽然是一维的，但通过Transformer模型，它是一个极高维的关系矩阵。

李丰：我的意思是，不管中文还是英文，字和词可以独立存在，但就像你说的图片上下部分可能是有联系的。

陈文光：我理解你是指假设图片里有人的眼睛或鼻子，然后切图的时候，其中一个patch只包含了眼睛或鼻子的一部分。其实切完之后，这个embedding本身它是有内容的，它会试图去理解说这个跟眼睛比较像，可能是人的眼睛的一部分。

李丰：如果纯粹从抽象思考的角度来看，我们人类处理视觉输入信息的过程与处理语言信息输入的抽象过程是否一样？

陈文光：可能不一样。视觉处理的过程应该不会像语言处理那样是线性的序列。

机器学习领域有一个观点，AI只需要达到大脑的功能，不一定要复制大脑的机制。也许我们可以找到不同于人脑的另一条路径，在计算上更加可行，并且能够达到类似的效果。所以，AI的工作机制未必像人脑，跟它不能达到一定的智能，这两者不能简单划等号。

李丰：同意。我们看过一些类脑计算项目，但目前它们的效率还不够高。这背后的主要瓶颈是，我们对大脑的了解太少，特别是对大脑的复杂认知过程和机理的理解。

陈文光：我们对人类大脑的观察手段有限，不能进行有创实验，语言机制的研究就很难深入。视觉研究其实相对好一些，因为可以在低等动物上进行实验，比如果蝇或小鼠。但涉及到人类的语言机制时，实验限制更多，其中实验伦理问题就是个很大的槛。

目前的逻辑是，AI将继续沿着自己的一条发展路径前进，而类脑计算作为一种脑启发的智能，是另一条可供选择的路径。人工神经网络的研究者众多，方法也多样化，总会有新的突破。类脑计算如果能够取得一些好的结果，也会被广泛应用。

大模型的逻辑与难题：从图片到视频

李丰：回到我们之前讨论的主题，文生图和图片输入是两件事。如果我们再往上扩展一层，加上时间维度，形成三维数据，就变成了视频输入，这对现有模型来说是否会过于复杂？

陈文光：不一定。比如Sora的白皮书虽然内容不多，但基本上可以看出它是通过训练一系列图片来进行的，通过视觉模型对这些图片进行描述，这样就形成了一个序列。

你提到的关键问题是如何理解这些序列之间的关系，以及在生成内容时如何保持一致性。在视觉领域的研究社区中，这两个一直是热门话题。

稍微提一下蚂蚁技术研究院的工作。虽然蚂蚁没有做直接生成很长的视频的模型，但它做了一项可编辑多媒体的研究：你给我一个图片，并在上面标注一个区域说，在这里画一个围巾，然后系统会很逼真地在那个区域生成一个围巾。

还有一项工作是对视频进行风格化编辑，比如将一段视频中的人物的头发变成白色。这就涉及到时间上的一致性问题，首先在图片上进行变换，然后在时间轴上做一些约束，最后生成整个视频。

当然那这些研究还都不完美，但大家确实在不断探索。我觉得不存在那种跨不过去的技术约束或者鸿沟。

李丰：大语言模型本质上是通过分析词和词之间的绝对关系来运作的。那么，今天用来训练和输入的这些图片或者视频数据，是否大部分都没有经过标注？

陈文光：大部分数据确实是没有标注的，但也有些数据是有标注的，比如 Meta 开源的一些标注数据集。目前大家普遍采用的方法是，是用Meta的 Segment Anything，它可以自动分割图片中的元素，并识别出这些元素。识别完成后，它可以生成一个非常复杂的长描述（long caption）。有了这些描述，再结合图片进行多模态模型的训练，就可以获取更多数据。

李丰：这个方法它可以识别出名词或物体，但动词呢？

陈文光：目前大家的研究还是主要集中在位置关系上，比如图片中有哪些东西，它们之间的相对位置。如果涉及到动作或动词，那可能就需要通过视频来进行对比，观察图片之间的变化来推断出动作。

具身智能领域的基座模型：

李飞飞的创业方向靠谱吗？

李丰：刚才我们讲了整个大模型的历史演变，前世和今生。当下，大模型带火了另一个赛道，就是具身智能机器人，或者说人形机器人。这个方向我们投了不少公司。

前段时间，硅谷有一家新的创业公司受到关注，它的创办人是李飞飞。李飞飞提到，大模型在物理世界面临很多挑战，是因为它本来就不是为物理世界设计的。她的公司致力于解决物理世界中的大模型问题，特别是用于具身智能机器人的基座模型。

我很赞同她的观点，但现在面临的挑战是：首先，要为未来的智能机器人开发新的模型，这些模型需要考虑相互作用、形变等物理问题。然而，短期内，似乎无法通过纯粹的物理计算来解决这些问题。第二，机器人领域的数据少，标注的数据更少，那么在构建基座模型时，这个挑战看起来比处理视频数据更大。

我的问题是，未来两三年内，一个有效的具身智能机器人基座模型真的能被开发出来吗？

陈文光：我觉得这取决于它要实现什么功能。如果是视觉和场景理解，基本上是可行的。像是自动驾驶，就已经基本解决了这两个问题。

同样的，在机器人领域，无论是在室内还是室外，观测的内容虽然不太一样，但本质上没有根本的区别——看到某个物体，识别它的深度，知道它是什么东西，然后理解它的位置关系。这些在目前的计算机视觉技术中已经是很合理的扩展。

李丰：其实自动驾驶行业积累的大量的数据、算法和经验，这些都可以转移到机器人领域。但与操作型的机器人相比，自动驾驶有一个显著的区别：

在自动驾驶中，任何情况下都必须避免碰撞，这是一切的前提。但对操作型机器人而言，所有的操作都是为了物理接触，这是完全不同的逻辑。

陈文光：是的，我刚才提到的更多是环境理解和移动能力。这些技术虽然还不成熟，但没有根本性的技术挑战。操作就是另一个故事了，它的难点在于操作对象太多。

我们可以把操作对象分为刚性物体和非刚性物体，操作又可以分为精确操作和非精确操作。

目前，第一步是攻克刚性物体的非精确操作问题。目前主流的方法是模仿学习，比如先让人操作几千次，然后机器人通过学习来模仿。因为是刚性物体，当前的操作还不涉及太多触觉的问题，主要还是关注精度。

当然，未来肯定是朝着精确操作和非刚性物体方向发展，比如给人刮胡子、翻身、叠衣服，这些都是非刚性物体的操作，对准确性的要求更高。

李丰：所以我有点不确定——不是说质疑李飞飞的观点，而是拿不准这个方向，因为操作领域的挑战很大。可能在一些专用场景中会出现一些专用的、可以泛化的模型，但要实现全面的面向具身智能的基座模型还有很长的路要走。

陈文光：大家对基座模型的定义可能不完全一样。因为操作对象太多、操作方式太复杂。目前的倾向是针对具体任务，比如搬箱子，就专门训练搬箱子的模型。大家还很少讨论一个通用的操作基座模型，当前还没有成熟的方法论可以解决这个问题。

李丰：我也觉得是这样。短期内可能会有一些针对特定任务的、专用的小模型。

陈文光：技术的发展通常是从点状开始的，然后逐步扩展。很难说未来不会出现一个通用的操作基座模型，只不过目前我们还不清楚如何着手构建。未来可能会逐步合并一些相似的操作类型，最终扩展到更多的场景。比如搬运和抓取物体的需求不同，但我们可能会找到整合这些操作的方法。

李丰：现在看来，机器人下肢的运动能力可以通用化，关于下肢或者运动——我们说的是那种跨平面的运动，比如上下台阶、上下楼梯，或是爬坑、过坎。

这种类型的运动，你觉得会出现单独的基座模型吗？

陈文光：有可能，因为这种运动本质上是把视觉、触觉和运动控制结合在一起。

另外，现有的大语言模型对于任务理解和规划也有一定的作用。这也是为什么大语言模型出现后，具身智能变得火热的原因之一。

过去，我们很难直接告诉机器人该做什么，但现在通过自然语言，直接与机器人沟通变得更加容易了，这种技术的突破非常关键。

李丰：而且机器人领域可以复用很多自动驾驶领域的技术和经验。自动驾驶作为之前的 AI 热潮之一，经历了大约 10 年的发展，叠加算法的变化，这对机器人领域的发展也是一种推动。

你认为在大模型这个话题中，还有什么值得大家关注和补充的内容吗？因为大模型的发展似乎到了一个阶段性的节点，接下来可能会更多转向应用和机器人领域。

陈文光：GPT-5到底会长什么样，我还是有一点点小小的期待，也许等 GPT-5出来了，咱们今天聊的前面半截可能基本就作废了。

李丰：那我可能比你稍微保守点。目前大模型在事实性的、文字性的处理上表现出的智能水平还是可以的，接下来要解决的就是之前提到的9.11和9.3的问题。

陈文光：现有的大模型基本上可以胜任办公室文员的工作，基本的读、写它都能干，但当涉及到更复杂的交互，比如让它帮助规划旅游或订票，目前效果还不尽如人意。此外，当我们把模型细化到某个专业领域时，通常需要再训练专业数据，从而形成一个更专业的模型，但这些专业模型的深度能达到什么水平，还是未知数。

以科学领域为例，像AlphaFold这样的模型在科学发现上已经持续改进，并开始被应用于实际的科学研究中。有人甚至在讨论，大模型是否能够提出假设，而不只是总结现有的信息。如果它能结合计算和实验方法进行闭环验证，或许可以想象成一个自动化的科学工厂。当然，这就需要那个假设有较高的成功率，否则就会显得不太靠谱。

至于GPT5是否能帮我们在这些相对专业的领域进行更好的探索，现在还不知道，但想象空间是有的。

李丰：呼应一下你提到的这个点。历史上也发生过类似的情况，大约在 2015-2016年，那时的AI热潮不仅包括自动驾驶，还涉及一些技术和算法的变化，比如强化学习和 CNN这些技术的突破。紧接着再往下那一波，AI 逐渐开始与科学相结合，进入了所谓的“AI for Science”阶段。

当下这波大模型也是一次AI技术的提升。具身智能机器人是在这一波里先受到关注或者说被阳光照进来的领域，就像自动驾驶曾经引领当年的AI热潮一样。如果大家不再仅仅追求更“大”的模型，AI的进步将会像阳光一样普照其他重要行业和更多领域。

注：文/陈文光、李丰，文章来源：峰瑞资本(公众号ID：freesvc)，本文为作者独立观点，不代表亿邦动力立场。

文章来源：峰瑞资本