广告
加载中

DeepSeek开了第一枪 但更值得期待的是AI普惠

季宇、李罡 2025/03/04 10:49

在硬件生态层面,DeepSeek引起的震动还在持续。英伟达反复强调“DeepSeek出现证明需要更多AI芯片”。对于其他大模型厂商而言,DeepSeek于2月26日推出的“错峰优惠活动”,或许将掀新一轮降价潮。在应用层面,摩根士丹利、高盛等机构认为,低成本、高性能的模型普及会给AI行业带来爆发性的使用量和更广泛的商业落地。

那么,对于AI行业的创业者而言,DeepSeek究竟意味着什么?不久前,峰瑞资本副总裁李罡与行云集成电路的创始人兼CEO季宇博士就DeepSeek带来的影响、如何进行技术创新等话题展开了深入的探讨。

季宇博士拥有清华物理系本科和清华计算机系体系结构方向博士学位。他曾入选“华为天才少年”计划,在海思从事AI芯片编译器设计与优化,持续攻克复杂技术难题。2023年,季宇创立行云,围绕大模型需求研发超大显存规格的GPU芯片。行云希望推动AI的技术普惠,让市场重新回到人比机器贵的黄金时代。

我们将他们分享的部分内容编辑成文。他们聊天的话题,包括但不局限于以下主题:

现在容易获取的数据基本都被AI训练过了,未来是否会变成AI自己生成数据来训练自己?

大模型公司的护城河在哪里?

DeepSeek的出现,是偶然的破局,还是产业发展的必然方向?

AI芯片行业有哪些重构、创新的机会?

如何看待梁文峰所说的“技术优势是短暂的,真正的护城河是文化和组织”?

01

未来,AI是否会自己生成数据

来训练自己?

李罡:现在网络上比较易得的数据可能已经都被AI训练过了。大模型可用数据越来越少,那未来会不会变成AI自己生成数据,来训练自己?

季宇:我觉得问题的关键不是数据从哪里来,比数据更重要的是语言本身。因为语言才是给智能体提供思考能力的底层基座。

大模型在预训练阶段确实需要数据,但在推理阶段,更需要是奖励(reward)。

奖励是一种泛化的监督信号,告诉模型该往哪个方向调整以提高性能。比如在强化学习中,模型随机生成大量结果,通过外部信号输入,明确哪些是好的,哪些是不好的,然后调整,生成更好的结果。只要有这种信号输入,就可以进行优化。

此前,左右互搏这种方法,在人工智能程序AlphaGo训练围棋技能时被充分应用。左右互搏是一种在人工智能训练的策略,同时借助生成器和判别器,提升输出的结果。就好比一个人自己和自己下棋,不断提升自己的棋艺。

但实际上,左右互搏并没有在强化学习或大模型的概念空间中被充分定义。因此,如何让大模型提升推理能力,还有很大的探索空间。

思考是一个自我验证和迭代的过程。自然语言的厉害之处在于,我们可以自己闷头思考问题,即使没有对话,也可以在脑海里进行逻辑演绎,找到思路或得出更深刻的结论。这是语言本身带来的,更大的探索空间。

当然,“语言”和“奖励”这两者并不冲突。如果能借助语言,找到更多的奖励信号,也能提升模型的能力。比如,据业内人士分析,ChatGPT的一个突破点在于,将代码和自然语言放在同一个模型中训练,从而提升了输出质量。

如果当下,大模型能够在更多的领域进行强化学习,可能会因为不同领域的数据特征差异,激发出新的能力。

李罡:确实。毕竟,AlphaGo输出的结果通常是“非黑即白”的,因为输赢是客观的。但在语言模型领域,有些输出是可以评价的,比如数学和编程有确定答案。但更多的时候,很多问题是没有标准答案的。下一个阶段,大模型所需要的数据和评价方式可能会发生新的变化。

02

AI模型公司的护城河在哪里?

李罡:在DeepSeek开源的生态下,个人和企业用户都能相对容易地以较低成本自行部署或复制出模型,那么大模型公司的护城河在哪里?

季宇:对于一家企业而言,技术本身并不能形成护城河,真正的壁垒在于商业模式或生态系统。

借助资源形成的竞争壁垒,很容易被打破。比如,DeepSeek打破了过去许多云厂商和互联网巨头构建出的,以GPU、“万卡集群”构建的资源壁垒。

一个很现实的问题是,尽管人们对AI期望很高,但它还没有完全渗透到这个世界的经济系统里,发挥出巨大的商业价值。我们先不要给AI行业设定门槛,当AI行业发展起来之后,自然会出现相应的商业模式。

毕竟,在技术还没有真正完善之前,所谓的门槛可能也不堪一击。只有当技术和应用场景紧密结合,形成可持续的经济循环时,一家企业才会拥有真正的护城河。

03

DeepSeek的出现,是偶然的破局,

还是产业发展的必然方向?

李罡:之前你曾提到,支撑英伟达股价的两个因素是大模型产业的发展和英伟达在产业中的垄断地位。

DeepSeek爆火的这段时间,美国有人甚至提出要加强对中国的芯片和显卡管制,要限制中国AI大模型发展。他们面对挑战时的第一反应是固步自封。你觉得DeepSeek是偶然出现的破局者,还是说这是产业发展的一个必然方向?

季宇:在AI这样一个庞大的体系和生态系统中,DeepSeek是一个非常重要的角色。它的“出圈”,对AI行业有很大的促进作用。

过往,OpenAI、微软、英伟达等公司形成了一个利益共同体,希望大家都使用他们的基础设施和模型。Scaling Law推动千卡、万卡集群的形成,本质上是在构建一个大型规模的计算体系。这样的结果是,硬件设备越来越像上世纪80年代的大型机,需要极大规模的投资才能运行最好的模型。

DeepSeek是撬动这个体系的第一步,“开了第一枪”。更重要的是,未来,AI普惠的产业结构如何与通过资源形成垄断体系的小圈子之间进行博弈。

AI行业越往后发展,越需要有更多的创新。创新不仅仅在模型层面,还包括基础设施(Infra)的变革,芯片的重构,以及围绕AI普惠搭建起来的一整套体系。而芯片的重构,也是行云集成电路一直投身其中的方向。

对于硬件行业来说,真正的破局之路在于塑造一个比CUDA生态更有吸引力、更具竞争力的新体系。

如果我们未来围绕DeepSeek、国产芯片以及AI普惠的目标,能够打造出类似过去的X86集群和个人电脑的生态系统,或许可以逐渐让这个“大型计算体系”失去其核心价值。

我们有可能借助几千元或几万元的芯片,就能用得上好的大模型,甚至构建出服务能力超过以往昂贵硬件的集群。

历史上,PC以及互联网领域的革新大多基于这样的思路,即创新公司用更经济的方式取代了传统巨头形成的高价策略。这种转变不仅降低了硬件成本,还形成了更高效的计算机底座体系。

04

创新过程本身也需要提高效率

李罡:作为一个创业者,你是怎么看待梁文锋说的:“技术的优势是短暂的,真正的护城河是文化和组织”?

季宇:我非常认同这一点。梁文锋躬身入局,是个很好的榜样。

技术的优势虽然重要,但很难持久。比如,OpenAI刚出来时,大家都追不上它的技术,但这只是暂时的。全世界有这么多优秀人才,大概率可以复现并超越这种技术。

DeepSeek成功的关键在于,它在基础设施、算法和模型等方面都进行了联合创新,而不是单点突破。

创新过程本身也需要提高效率。DeepSeek这种联合创新,对企业组织能力的要求非常高。

组织能力不是说把一群聪明人聚在一起,就能产生价值。组织的作用是给出一个通盘合理的方向,大家齐头并进。

提出通盘思路的前提在于,需要深入到细节,知道每一层要做些什么,才能有效打破每一层的边界条件。

我之前和一位在DeepSeek工作的师弟聊过,他说梁文锋对他所做项目的每个技术细节都非常清楚。当总负责人深度参与到项目中,了解清楚技术细节,才能更好地组织全局,真正让团队里的人才发挥价值。

文化与组织才是真正的护城河,但实践起来非常难。

我观察到,一些人在投资和创业时都很相信经验主义——相信行业专家和取得过成功的标杆人物。经验主义这种方法在中国经济腾飞中确实发挥了作用,它解决了如何提升效率的问题。反经验主义并不是抛弃经验,而是搭建新的组织方式,来高效推进创新。

国内不缺反经验式的创新尝试,比如非Transformer架构的模型、非GPU路线的芯片等等。但这些尝试之所以成功率不高,部分原因在于缺乏全局的思考和方法论。

李罡:我也非常赞同梁文锋的观点。从投资人的视角,我们希望初创企业能提升资金的利用效率,创造更大的价值。而效率问题本质上还是人才、团队组织的问题——如何找到最优秀的人才,并将他们有效地组合起来。

就像MoE(Mixture of Experts,专家混合模型)架构中的每个专家一样,一家企业需要考虑清楚:如何把团队里的每个专家组织起来,形成一个规模大而且能力强的公司?

注:文/季宇、李罡,文章来源:峰瑞资本(公众号ID:freesvc),本文为作者独立观点,不代表亿邦动力立场。

文章来源:峰瑞资本

广告
微信
朋友圈

这么好看,分享一下?

朋友圈 分享

APP内打开

+1
+1
微信好友 朋友圈 新浪微博 QQ空间
关闭
收藏成功
发送
/140 0