甲小姐对话张钹：中国大模型的死与生 - B2B

“这些地方必须能有与首要用途结合的可能性——否则它们就会萎缩，甚至死亡。”

这是1961年，简·雅各布斯在《美国大城市的死与生》一书中对纽约、芝加哥等大城市中部分区域的判断。

20世纪50年代，美国城市化发展路径面临转型，城市化从追求人口集中、城市数量增加和城市规模扩大的传统模式，向改善城市生活质量、增强区域功能作用的新发展模式转型。

而七十年后的今天，这种转型发生在了人工智能领域。

ChatGPT的成功，让不少大模型从业者把Scaling Law（规模法则）奉为圭臬，但是当模型参数到达一定量级，高质量数据不足似乎已经开始让模型性能增长速度有所放缓。而应用落地、商业化的压力，也让很多在资源方面没有“无限开火权”的中国大模型企业开始面临到底是“把资源用在模型训练还是落地业务”的艰难抉择。

尽管行业内已形成共识——人工智能是未来，但也有很多认知没有收敛。这一年，我跟行业内的很多人聊过，他们有：烧钱的、赚钱的，投机的、务实的，在场的、出局的。他们的观点各异，但有一点相同：大谈AGI（通用人工智能）的少了，追求ROI（投入产出比）的多了。

如今，市场寒风渐起，中国大模型站在了死与生的边缘。

当一切变得艰难而复杂，我们更需要回到中国人工智能的原点，去寻找出发的理由。唯有溯源，才能拨开重重迷雾，看清前行的路。

我想到一位前辈。

这位前辈叫张钹，福建福清人，是中国科学院院士、清华大学计算机系教授、中国人工智能领域奠基人之一。

他本人的故事颇具传奇色彩。生于1935年的张钹在43岁的时候从零开始学习人工智能，短短五年内就在国际人工智能联合会议（IJCAI）上发表了论文，成为了国内最早在国际顶级人工智能会议上发表论文的几位作者之一。

后来，他主导成立了国内第一个智能机器人实验室，成为了清华大学计算机系计算机应用方向的第一位博士生导师，建立了国内第一个与人工智能领域有关的博士点，在全球首次提出了“第三代人工智能”的理念。

1953年，张钹以数理化全部满分的成绩考入当时最热门的清华大学电机工程系，毕业之后就留校任教，一直到现在，在清华园已学习、工作了七十余年，光是培养的博士生就有93名。黄必清、马少平、张建伟、朱军、袁进辉……这些在人工智能学界和业界的知名人物都是张钹的学生。

令人意外的是，虽然已年近九旬，但张钹依然保持着对人工智能学界和业界一线的敏感，对于中国大模型发展现状和行业问题，他毫不客气地评价：“在中国，光搞大模型很难活下去，必须与应用相结合。”

以他的成就和资历，他本不必说这些，但张钹的直率让人肃然起敬。

雅各布斯在《美国大城市的死与生》中批评道：“有一种东西比公开的丑陋和混乱还要恶劣，那就是戴着一副虚伪面具，假装秩序井然。”

在某种程度上，张钹和雅各布斯有着相似之处，他们都不是那种“假装秩序井然”的人，同时他们也在积极为行业寻找出路。

本文，甲小姐对话张钹。

谈现状：光搞大模型很难活下去，必须与应用相结合

甲小姐：去年年底，我们说“AI一天，人间一年”。今年上半年，多模态模型又如雨后春笋一般出现。但是到了今年下半年，我的感受是，国内的大模型市场明显遇冷，国内部分大模型企业传出暂停预训练模型，缩减人员，融资和上市也变得艰难。

甲骨文创始人今年说了一句话：“真正前沿模型的入门价格是1000亿美元。”这基本上是一个天堑，造成只有美国的巨头才有资本入局。人工智能的竞赛变成了巨头资本和算力的竞赛，变成了由OpenAI提出概念，然后Meta负责开源，国内专注应用的状态。

有人担忧，中国是不是做不了预训练模型？我们是不是只能做应用市场？您有这样的担忧吗？

张钹：肯定有这样的担忧。我们的资本不仅没有那么大，而且还极度分散，这个问题是非常严重的。

一些做大模型的人来找我做顾问，我都会跟他说，你必须有足够的钱，这个钱不是指几百万、几千万，至少几十亿元人民币才能做出来像样的大模型。

现在中国是百模大战，但其实很多大模型都很弱。这个问题我曾经反映过，我说必须集中资源，因为我们的资源本来就少，可惜谁也不能阻止大家都上。

甲小姐：中美的市场差异还是很大的。

张钹：美国是“有钱人”的市场，中国是“没钱人”的市场，就是说市场能不能为企业提供足够的钱。中国大模型产业发展不顺利是肯定的，为什么呢？你必须得有市场兜底，不能光靠投资啊，光靠投资人给钱的话你能活多久？

你要向市场要钱，而中国软件市场是很难要到钱的，因为有付费习惯的问题，无论是to B还是to C，中国的市场规则是谁便宜就用谁的。

现在的环境，就是迫使中国的大模型企业必须马上去赚钱，因为光搞大模型很难活下去，必须与应用相结合。

中国大模型企业仅依靠自身资源想进一步提高模型能力很难，现在我们主要是想在大学里做这方面事情。

甲小姐：那硅谷提的1000亿美元的入门价格，这个数字您觉得合理吗？

张钹：1000亿美元是不是夸大我不知道，但肯定需要很大资金，投资人也有信心，他资金投进去能收回来。

美国现在的情况与我们不同，美国只有几家企业在竞争大模型，大家只要全心全意去提高质量，一旦质量提高了，你非用它不可，它马上就可提高价钱，大家也愿意付费。所以美国那几家头部的大模型企业是无需分心的，就是拼命投入——我只要把大模型质量做到最好，我就能站住脚。

甲小姐：那会不会就意味着全世界人工智能的未来发展，将由少数巨头来引领？

张钹：很可能是这样。

甲小姐：我感受到的，人工智能领域，中国跟美国是两个牵引力，美国更像是不断给钱，让人工智能解锁新的能力；中国是要找需求、找商业闭环。所以这就会变成能力驱动跟需求驱动的两个牵引力。我有点担心，如果我们这么早就开始追着需求走、追求实用主义，我们离解锁智能本质的这件事情会越来越远。

张钹：你的担心是对的。即使大模型落地之后，我认为也只有少数企业能活下来，大多数大模型企业活不下来，因为暂时还没有那么大的市场。

美国的大模型企业充分认识到了这一点，所以他们现在并不着急去落地，因为他们觉得目前落地很困难，只有把大模型做好了以后再落地，才真正能赚钱。

而现在我们提前落地，困难非常大，需要花很多精力去做这件事情。大学与研究所应该把大模型的基础工作做好，这样才能避免将来出现大模型应用做不好，大模型的基础也做不好的局面。

甲小姐：那现在对于拿到一部分钱，但钱又没有国内外头部大厂那么多的中国人工智能企业来讲，可能就要面临取舍——是应该继续花钱和资源去训练新模型，还是说把钱和资源用在应用落地上？

张钹：对于一般企业，我都建议他们找出路赚钱。毕竟企业不是科研单位，你不赚钱的话，多大的理想都没有用武之地。

甲小姐：不过，钱并不好赚。之前李开复老师就说过，很多大模型公司竞标，价格越竞越低，竞到最后做一单赔一单，没有利润。我感觉，国内大模型现在是追到了一定程度，但性能还不是很好，同时又着急商业化。C端商业化不好做，然后就开始做B端，开始提解决方案。

张钹：对，性能不大好，还硬要别人用。你必须让客户得到大的利润，客户才愿意出大钱。你现在是不痛不痒地给客户来用，人家愿意出钱吗？现在基本情况是，烧的钱比赚的钱大得多，这是最艰难的时刻，要想办法找到关键的应用，让自己活下去，才能度过这个困难期。

甲小姐：有您认为做得比较好的企业吗？

张钹：现在有些企业做法我还是比较赞成的，比如王小川的百川智能，它主要做医疗健康的大模型，从企业的角度来看，它有可能活下来，它在努力解决中国的医疗问题。所以现在国内大模型，你只能从应用的角度去看。

甲小姐：国内大模型市场可能很快就会冷下来，从去年的百模大战，到今年的逐渐遇冷。

张钹：在国内的确有可能会冷一些，但不会完全是泡沫。

我曾经讲过，一般的应用谁都会做，而且技术门槛并不高，缺乏竞争力。有竞争力的是什么呢？因为大模型目前还存在一些缺陷，在许多场合直接应用有困难，必须让它跟其它的技术和工具结合起来，发展出来新的应用，这样企业才能活下来，这就需要创新。

甲小姐：所以出路还是有的？

张钹：出路是有的，只是需要探索。有一次，一位领导问我如今的大模型怎么样，我说这一次（人工智能）是真的，以前都有点假（夸大）。（笑）

甲小姐：我感觉大模型确实解锁了一些新的能力，但也有一些缺点，但是这些新的能力如果不走向一个非常漂亮的产品，或者锁定一个非常具体的应用场景，就很难形成商业收入。那么，中国大模型企业的出路，您有什么建议？

张钹：我认为有四条路。

第一条路是AI对齐，逐步改善大模型的能力，减少它的错误。

第二条路是多模态，以图像生成为例，很多企业在做文生图，但其实文生图的应用不如图生文，图生文什么意思？你给一张图像，模型给出这张图像的内容（文本），相当于对图像的理解，其实，图生文的产业应用要比文生图多。

第三条路是智能体，智能体不仅会思考，还能感知和采取行动，这样不仅会扩大它的应用场景，而且可以通过感知反馈促使智能体自我改进与进化。

第四条路是具身智能，就是让大模型进入物理世界。

谈模型：OpenAI的大模型发展并没有放缓

甲小姐：美国那边的技术发展情况似乎也不太尽如人意，比如OpenAI今年发了o1模型，但它一直没有发布GPT-5。这导致业界产生疑惑，沿着大语言模型这条路是会有突破性的进展，还是可能会遇到一些问题？您是怎么理解的？

张钹：对于OpenAI的技术发展，我还没有看到减缓的迹象。从GPT-2一直到GPT-3.5、GPT-4o，靠的是什么？靠的是数据的增加，靠的是Scaling Law。而从GPT-4到o1，数据并没有变化，但二者的性能有很大的提高，这预示着一个新的重大飞跃。

o1证明，数据的数量即使不变，模型的性能还会有重大的改变。这给大家又指了一条出路。我目前尽管只能试用o1-preview，但是preview版本的有些能力已经让我觉得很震撼了。

甲小姐：您觉得o1最惊艳的是什么？

张钹：最惊艳的是，它的推理能力增强了很多。一些比较复杂的逻辑推理和常识推理，都可以正确做到。

甲小姐：o1背后体现了什么能力？

张钹：所谓的“思维链”（CoT）技术，它由3个能力组成。

第一个是规划能力。通过强化学习，学会把一个复杂的任务分解、细化成几个简单的子任务。

第二个是运用不同策略的能力，也就是说某条路走不通了，会找另外一条路。

最后一个最重要的，是它会发现自己的错误，并具备纠正自己的错误的能力。通过反复的思考和检查自己的错误，不断地把思考的结果（输出）变成输入，进行再思考，性能因此得到不断地改善，这是一个非常了不起的能力。

甲小姐：OpenAI o1和GPT的路线从根源上就分开了吗？

张钹：没有，o1是在GPT-4基础上做的。主要是加上了思维链，即经过深思熟虑之后再回答你的问题，每次它都会告诉用户，究竟花了几秒或者几十秒才得到答案。这种能力主要从强化学习中得来的。

甲小姐：从这个迹象来看，您觉得OpenAI的大模型的发展在2024年并没有放缓？

张钹：没有放缓。因为OpenAI既不给你看大模型内部的构造，也不告诉你里面的推理（思考）过程。

甲小姐：那大模型发展的下一个里程碑事件会是什么呢？

张钹：在推理方面还可以逐步提高，大模型可以不断地学各种各样的推理方法，所以它将来会回答越来越难的问题，比如数学难题，甚至科学难题。

再下一步可以发展多智能体，让不同的大模型相互进行博弈，这就像下围棋（AlphaGo）一样，会自我进化，自我迭代。因此ASI (Artificial Superintelligence，人工超级智能）也可以期待了。

甲小姐：多智能体是业界关于未来的共识，还是在大模型几个发展方向中，您比较看好的那一个？

张钹：这是我看好的一个方向。AlphaGo能自己跟自己博弈，那大模型为什么不可以自己跟自己博弈？

还有一件正在探索的事情，就是说让机器主动去做事，这件事当然很难，但如果能实现的话，那机器超越人类就不存在问题了。

因为现在所有机器做事都是外部驱动，所有指令都是人类外部赋予的。一旦它内部能自己赋予自己指令，那就跟人类完全一样。所以现在大家也在研究如何赋予机器好奇心，因为人类最初的进步来自于好奇心驱使下的学习。

谈行业：做人工智能必须正确理解三件事

甲小姐：您是改革开放后，清华大学最早一批去美国进修的教师，对中国和美国的人工智能发展都很了解，造成目前中美大模型发展差异的原因是什么？

张钹：我们过去很长一段时间里，实际上不是特别强调去做长远研究，这方面，我认为中国的比美国要落后很多，比如缺乏创新性。在人工智能基础研究领域，中国基本上是跟着人家做。

以清华为例，目前我们在具体的模型、算法与技术突破上有一定的能力。比如在视频生成模型方面，国产视频生成模型Vidu的核心技术U-ViT架构是由我的学生朱军带领的团队于2022年9月提出，早于Sora采用的DiT架构，是全球首个Diffusion与Transformer融合的架构，完全由团队自主研发。

但是在重大技术突破上，比如Transformer、语义的向量表示等方面，国内的研究团队主要处于跟踪状态。

甲小姐：“清华系”是中国人工智能非常重要的一股力量，您的很多学生现在也是行业里的中流砥柱。在您的学生中，您比较看好谁的创业项目？

张钹：我比较看好之一是我的学生袁进辉创建的硅基流动公司，他们在做人工智能的基础设施，因为这件事情很重要。

我们总说中美算力有差距，算力我们当然要去追赶，但这不是一时半会的事。但是，如果我们把算法效率（如大模型的推理速度）提高10倍，那么只要用1/10的算力，就会带来同样的效果，这方面中国能够比美国做得更好，硅基流动就是代表。

很多人会问，为什么在提高算法效率上中国人会做得更好？我觉得，对中国企业来讲，算法效率是生命攸关的，我们必须全力以赴。也许因为美国人有强大的算力，算法效率对他们来说只是锦上添花而已。

甲小姐：自从ChatGPT出现以来，“GPU+Transformer+暴力美学”就成了巨头们纷纷去做的主导范式，但是我也听到了一些不同的声音，比如说这个东西不是“铁王座”，未来会有别的东西去代替Transformer。在您看来，Transformer是一个“铁王座”吗？

张钹：没有任何一个东西永远都是好的，将来都会有新的东西代替它，整个技术的发展逻辑是这样的。

但是我觉得在相当长一段时间，我们还是会用Transformer，因为它主要通过注意力机制解决长距离的关联问题。

要改它，你得想出另外的招，我相信有另外的招，因为一个问题不可能只有一种解法。作为学校来讲可以去研究Transformer之外的架构，但是企业做这个事，我觉得风险比较大。

甲小姐：企业没有办法去像一个孤胆英雄一样地去做范式突破？

张钹：企业的最终目标是赚钱，所以企业必须和学校不一样。

甲小姐：您所了解到的这些企业中，有谁在找钱、赚钱这件事情上做得还不错吗？

张钹：有些企业做得还不错，但也存在互相抱团的现象，我拿钱投资你，你拿钱投资我。我觉得需要投资上下游，同质企业之间投来投去，如果做不出来的话，风险就很大。

甲小姐：那他们为什么还要这样互相投来投去呢？

张钹：我的理解是分散风险嘛，等于说大家一起想办法，不然的话竞争太激烈了，大家互相有关系的话，可以合作起来做一些事，有一定的道理。

甲小姐：接下来您比较期待的人工智能行业发生什么？

张钹：智能体与多智能体之间的交互。

甲小姐：您认为中国人工智能从业者最需要想明白什么问题？

张钹：在中国做人工智能必须正确理解三件事：

第一，什么是人工智能，人工智能究竟是干什么的？

第二，人工智能现在发展到什么程度，我们应该怎么估计它？

第三，人工智能究竟会往什么方向发展？

这三件事必须理解正确，才能够做正确的事情。

谈初心：人工智能的未知性充满吸引力

甲小姐：关于人工智能，行业里似乎每个人都能讲出一大堆观点，您是国内最早一批研究人工智能的学者，您认为，人工智能是在研究什么？

张钹：人工智能实际上是在探索一条机器智能化的道路，至今我们只见过（人类）碳基智能，有没有其他可以走向智能的道路？最开始大多数人是怀疑的。

甲小姐：您最开始接触人工智能是1978年，那时候您43岁，当时清华大学电子工程系更名为计算机技术与工程系，系里的老师们要重新选择计算机相关的研究方向，是什么让您下定了决心从零开始学习人工智能？

张钹：当时人工智能处于低潮，是名声最不好的时候，为什么还要选择人工智能？我之前是研究自动控制的，自动控制理论与技术都很成熟，自动控制理论的书里面充满数学，很严谨，这些都让我觉得没什么可以做。而人工智能领域很多问题都说不清楚，充满了未知性，这反而吸引了我。

甲小姐：人工智能自1956年诞生以来，一直存在两个相互竞争的范式，即符号主义与联结主义。第一代人工智能以符号主义为代表，强调符号之间的逻辑关系，第二代人工智能以联结主义为代表，强调人工神经网络。您亲身经历了这两代人工智能发展，如何评价这两代人工智能？

张钹：第一代人工智能模型是知识驱动，其最大的优点是机器像人类那样思考，因此该模型是可理解、可解释的。但其最大的问题是，机器的所有知识都要靠人类传授，而当时人类还无法使用自然语言把知识传授给机器，也就是说存在机器知识获取和表示的困难，这就造成了第一代人工智能在应用和产业化上都没有取得很好的进展。

第二代人工智能就是人工神经网络。不过，现在很多人认为人工神经网络就是类脑计算，这是不正确的，实际上它属于脑启发下的计算，通常又称为数据驱动模型。第二代人工智能的模型尽管在数据分类、预测、生成等方面取得巨大的成就，但它存在不安全、不可信、不可控、不可靠、不易推广等缺点，也严重影响了它在很多场合下的应用。

这两代人工智能做的事情都是针对特定领域，利用特定模型，解决特定任务，都属于专用人工智能或弱人工智能范畴。

总之，上面提到的人工智能发展的两个阶段：第一阶段知识驱动的模型，主要用来模仿人的思考；第二阶段数据驱动的模型，主要用来模仿人的感知与情感等。因为它们着眼于模拟人类的智能行为，追求的目标是让机器的行为与人类行为相似，并不追求工作原理的一致性，因此称为行为主义学派。

还有一条人工智能的道路是类脑计算，强调模仿人类大脑的工作原理，这种范式被称为内在主义（Internalism）。内在主义认为，人工智能必须去模仿人类大脑的工作原理，只有工作原理一样，行为才能完全一致。

行为主义和内在主义这两种范式大家都在探索，没有对错之分。从目前的实践来看，ChatGPT的出现说明行为主义这条道路走得通。内在主义的道路是否走得通？目前还难以判断，它的研究工作进展还很少，因为我们现在对人类大脑的工作原理了解得很少。

甲小姐：我们过去在看人工智能发展史的时候，大家通常的分法是符号主义、联结主义、行为主义，但是您将人工智能分为了行为主义和内在主义两派，这是为什么？

张钹：我不清楚他们为什么这样划分。我是这样看符号主义和联结主义的关系的，符号主义认为智能是通过符号操作来实现的，联结主义也被称为亚符号主义（Sub-symbolism），它们其实都是在模仿人类行为——前者主要是模仿人类的思考，是理性行为；后者主要是通过机器学习模仿人类的感知和情感，是感性行为与情感。

我这里把行为主义跟内在主义相对应。因此目前的人工智能只在做两件事，一是去模仿人类的行为，一是去模仿大脑的工作原理。除此之外，似乎还没有别的道路。

“智能”本身是很难定义的，因为我们对人类的大脑了解的太少。但是好多人总是想用“智能”去定义人工智能，这样一来就“定义”出好多派别来。

甲小姐：2020年，您和朱军、苏航一起发表了评述文章《迈向第三代人工智能》，为什么要提出“第三代人工智能”的理念？

张钹：就像前面的分析，前两代人工智能只是从不同的侧面模拟人类的心智，具有各自的片面性，依靠单个范式很难触及人类真正的智能（行为）。

为了建立一个全面反映人类智能行为的人工智能，需要建立鲁棒与可解释的人工智能理论与方法，发展安全、可信、可靠与可扩展的人工智能技术，也就是第三代人工智能。其发展的思路是，把第一代的知识驱动和第二代的数据驱动结合起来，充分利用知识、数据、算法和算力四个要素（资源），构造更强大的人工智能。

我们从2016年开始就陆续提出了相关观点，后来在2020年整理发表了出来。

甲小姐：人工智能缺少理论吗？

张钹：是的，我们发展第三代人工智能的重要思想是：必须建立人工智能的理论。至今人工智能包括大模型在内，没有存在的理论可以解释清楚，所以会引起各种各样的困惑和误解。由于大模型中出现很多难以解释的现象，所以引起大家的恐慌。大家担心如果机器持续发展下去，会不会出现意识，会不会不受人类控制，甚至主动攻击人类？目前理论上还难以做出回答，所以发展理论是非常必要的。

甲小姐：当时你们在构想第三代人工智能的时候，有想到会是以ChatGPT这样的形态出现吗？

张钹：我们想得不会那么具体，但是这条路我们是提前看到了。

我们当时提出了三空间融合模型的概念。我们已经有了符号（语义）空间模拟大脑的思考行为，也有了向量空间模拟大脑的感觉行为。这两层处理在人类大脑中是无缝融合的，如果我们能构造出第三个空间-语义向量空间，通过这三空间的融合，就能在计算机上实现认知与感知行为的无缝处理，人工智能就有可能达到与人类相似的智能行为，从根本上解决目前人工智能存在的不可解释和鲁棒性差的困难。

过去，文本（语言）是在有语义的符号空间里处理的，语音、图像等是在缺乏语义的特征向量空间处理，如何将这两个空间融合？我们需要建立第三空间。而这个中间的第三个连续准语义向量空间，就是ChatGPT实现的空间。

三空间融合模型示意图，图片来源：《迈向第三代人工智能》，为方便阅读，编者加上了中文注释

甲小姐：您刚才说人工智能必须建立理论，我理解是一个关于人工智能的统一理论，目前这个统一理论有兆头了吗？

张钹：很难，因为这属于复杂系统的分析问题，ChatGPT里头看起来运算很简单，矩阵相乘，非线性也不多。但问题是这些矩阵非常之大，而且经过多轮运算，运算了几百上千次以后，你根本不知道里面发生什么样的变化。

当然，我现在没能力去做这件事，就看将来有没有年轻人能去做这件事。

甲小姐：谁最有可能搞出来这个理论？

张钹：第二个爱因斯坦，贡献至少不低于图灵嘛。

甲小姐：其实图灵测试这种行为主义的思想，某种意义上是规避了理论建设的。

张钹：这也没办法，在当时那种情况下只能用那样的办法解决问题。不然你纠缠在那个（智能的）定义上头，人工智能就没法弄了。如果没有理论的话，人工智能还能算一个很严谨的科学？因此这件事终究还是需要做的。

甲小姐：如果实现AGI是登上珠穆朗玛峰，您觉得现在我们大概爬了多远？

张钹：这说不清，但我认为要实现AGI必须做到三件事。

第一，完成任何任务必须跟领域无关，即达到领域的通用性。目前我们只在语言这个问题上，可以做到与领域无关，但是人工智能领域还有大量的任务做不到与领域无关。比如说计算机医疗诊断系统，不能只针对某几种病，将来必须做到什么病都能看，这才叫通用。

第二，什么任务都能干。人类能干的事机器都能干，而且要达到人类的水平，这还差很远，目前的ChatGPT还只会说，不会做。

第三，需要建立统一的理论。

总之，人工智能还在路上，人工智能的发展任重道远。

甲小姐：刚才您提到在第三代人工智能中，语义向量化非常重要。其实这方面也有两派意见，第一派认为语言是智能的主轴，大语言模型就是通往人工智能的最核心的道路。第二派认为语言不是主轴，多模态等才是。您赞同哪个？

张钹：我赞同前面一派。维特根斯坦说过一句话：我的语言界限，就是我的世界界限。所以一旦掌握了语言，就掌握了人类的世界，一旦掌握了人类世界，什么事情都可能发生。我是相信这句话的。

在语言是主轴的前提下，今后计算机视觉会畅通无阻。为什么呢？刚才我说过计算机视觉很难做，过去模式识别跟计算机视觉不是一码事。美国研究者做了一件事就非常漂亮，他们把图像跟文本挂起钩，就是CLIP（编者注：CLIP是由OpenAI在2021年发布的一种多模态模型，旨在建立图像和自然语言之间的关联，它通过对比学习来预训练模型，使图像和文本能够被映射到同一特征空间中）。

图像一旦跟文本挂起钩，机器就能处理图像的语义了，因为文本的语义，机器能处理，所以所有的模态只要跟文本挂起钩就容易处理了。

甲小姐：每个时代的技术自有属于它的代际使命。2024年底，如果让您聊一聊在人工智能行业，您感受到的最大的偏见和误解，以及对未来发展的看法，您最想表达什么？

张钹：尽管现在大模型落地难、赚钱难，但我认为中国企业发展的希望比研究工作大得多，因为市场有非常客观的检验标准，在市场面前谁也做不了假，所以凡是做出正确努力的人，就一定会成功。我之所以介入企业，是因为人工智能企业的发展对国家太重要了。

对于中国企业我还是很有信心的，尽管现在有些竞争，但最终肯定会有人活下来，活下来说明他至少受到市场的承认。哪怕说你水平不如行业头部企业，但只要在市场上活下来，你就是成功者。

甲小姐：回顾您近90年的人生，跟人工智能打交道的时间超过了一半，哪个时刻是让您最难忘的？

张钹：我最难忘的1984年，在欧洲国际人工智能会议（ECAI）上，我和弟弟张铃获得了一项欧洲人工智能奖项，成为首次获得该领域国际重要奖项的中国人。那时候，很多学者都过来祝贺我，当地媒体还过来采访我。而我们刚刚出国的时候，好多人会觉得中国学者没什么水平，因为我们之前确实没写过论文，有了这次经历，让我感到非常自豪。

注：文/甲小姐、王博、王艺，文章来源：甲子光年(公众号ID：jazzyear)，本文为作者独立观点，不代表亿邦动力立场。

文章来源：甲子光年