价格战之外,“大模型落地有三个核心关键挑战:更好的模型、更低的成本和更易落地的工具。”
大模型价格为何走向“厘时代”?
赵何娟:很高兴今天能够请到火山引擎的总裁谭待来到「何谓2024」的节目,火山引擎的大模型发布会,可以说引起了行业非常大的一个反响。其中最重要的一条就是开始卷价格战了,大家可以看到最大的一个亮点,就是价格比同行能低到99%,为什么你们一开始选择以最低价的方式来做市场的引爆?
谭待:我们发现,企业在AI应用创新上会面临两大挑战,一个就是模型的质量,目前市场上主流的模型基本能达到“可用”的质量水平;另一个就是以模型为首的创新成本。
目前AI还是一件很不确定的事情,失败概率会比较高,如果用AI去做企业的创新通常90%会失败。现在很多企业去做一个AI驱动的创新项目,可能至少要100亿Token起,而且用完之后可能才能知道是否可行,如果按以前的价格来说,可能需要将近100万元成本,但是如果能降成1万块钱,企业的创新门槛就大幅下降。
ToC的商业模式是把用户规模做大,通过别的方式来变现,比如说广告。但ToB的企业服务讲究的是持续性,企业在乎的是能够持续得到持续且质量好,价格也稳定的服务。因此即使一方面市场有需求,但另外一方面如果做不到,这个事也很难持续。所以实际上火山引擎是在整个模型的成本优化上做了非常多的事情。
有的芯片内存是瓶颈,有的芯片算力是瓶颈,把这两类芯片组合在一起成本就能下降。因为规模非常大,调用量非常大,把不同的调用量混合在一起就可以降低成本。
再比如有的人是白天工作时候用,有的人是晚上娱乐的时候用,还有人是大家都睡着的时候用,但是有些科研,有些这种离线的任务也可以来用,我们把这些不同的对大模型的调用负载混合在一起,成本又可以降低很多。所以我们做了这么多优化之后发现我们可以做到这个事,从技术上我们可以做到,同时市场也需要你做到,那就应该这么来做。
还要提供很多应用的工具,包括插件,还有低代码的扣子平台,它可以让你不会写代码,也能够去开发自己的Agent,还包括一些脚手架的工具等等。
总体来说,需要持续做好三件事:更好的模型、更低的价格和更易落地的方案。
赵何娟:国内的云服务厂商中火山云因为入场是最晚的,因为入场晚,就意味着规模肯定不如先发者,比如说阿里云。为什么阿里云规模效应更强,但它的价格做不到那么低?你们现在能把价格做到这么低,本质上来说还是有利润的,并不是在倒贴钱给客户?
谭待:其实做云这个事情,最大的壁垒就是规模,规模大弹性就能好,弹性好成本也能低,也可以有资源,去让更有更强的团队去不断优化成本。
火山虽然对外做得比较晚,但是其实火山是字节的一部分,对内自用部分的时间和规模是可以综合进来的,当时我加入字节的时候,就在讨论说要不要进入云这个市场?战略团队就顾虑,我们做得比较晚,可能在规模上追有点难,但我说不应该这么算。在技术上,我们可以把自有的规模和外部客户的规模在安全可控的情况下做一定隔离,但是可以在资源上做混合的调度。所以这个时候去算规模,就不是去看纯外部的规模,而是看整个所有的负载的规模。所以火山坚持技术上一定要内外统一。所以可以认为不管是我们外部的客户,比如说手机、汽车、零售、金融的客户,还是内部的,比如说抖音、头条,其实都跑在火山引擎上。这样综合起来算,我们的服务器数其实就是中国第一,我们整体的服务器数,也看到了友商公布的服务器数。整体通盘有这个规模,自然就有把云,包括后面比如说现在把AI推理做好的底气,只需要技术上不断去优化,去把这个规模的优势做好。
倒贴这个事情,其实是不可持续的,如同前面说过的,ToC模式往往是“羊毛出在猪身上”,就是把用户免费地拿过来之后,可以通过别的变现方式来做。ToB不是这样的,售卖的是一个服务,而这个服务它得不管是从品、性能、服务的质量,还是说价格上,都得是一个稳定的。特别是云,它是一个可持续的。因为可能客户签了个3年的合同,这中间是不能变的。所以要去定一个价格的时候,一定要是保证这个事情是有毛利的。当然在这个阶段的时候,最重要的是说我们其实想让AI被更多的人能用起来,能有更多的创意,更多的创新出来,所以即使有利润我们也不会把它定特别高。
赵何娟:当初为什么字节要进入到云这个市场?毕竟字节是做ToC起家的,ToB业务逻辑完全不同。在当时“后发”的情况下,你们是怎么说服张一鸣?我们虽然进入公开市场晚,但是综合基础不差,一定能做成这个市场的?
谭待:首先是看这个市场重不重要,大不大?任何数字化底座一定是云,包括现在AI也是数字化的一部分,底座也是带来大量的云的消耗,这个市场是非常大的,中国未来的云市场会占全球17%-18%,,这个比例非常高了,而且现在保持着一个非常高速的增长。,有数据显示,2025年后,全球整个云市场就要超过在线广告的市场,所以这个空间是很大的。
而且云市场并不是一个赢者通吃的市场,马太效应不明显,大企业一定会采取多云政策。一方面避免被一家“绑定”,无法拿到好价格,另一方面,每家云都有自己擅长的地方。如果只用一家的话,就没办法采各家之所长,也不利于企业的技术的创新。也就是说在空间很大的云市场,后来者也是有机会的。
这个市场值得做。但是怎样才能做好?核心是战略一定要有定力,因为ToB是一个很长的事情,跟客户合作,可能有的客户得需要一年、两年才能真正去做得比较深。所以战略一定要稳定,要知道能创造的价值是什么,擅长是什么,不擅长什么,什么是自己做,什么是伙伴来做,给客户传递的是什么价值。
AI,云服务市场的下一个驱动力
赵何娟:提到火山的战略定力,哪些方向是火山比较明确的战略方向?公有云应该算一个吧?AI这个方向火山发声比较早,是不是也算一个?
谭待:公有云肯定是火山的战略方向之一,因为规模化是共有用发展的基础,前面也提到,这正好我们的优势,此外火山引擎确实花了很多精力去想什么是驱动云技术变化和发展的下一个关键因素。上一个关键因素是互联网,特别是移动互联网下一个大的关键点是什么?在自动驾驶领域,其实已经从以前的小的视模型、视觉模型或什么模型转向Transformer,典型的就是以前可能是用那些小的算力卡,后面当时开始用A100,生信也是一样的,生信制药想再把Alpha Fold出来,大家也在做这个事情,虽然那时候大模型,大家没有看那么清楚,但是明显已经感到Transformer大量的应用,AI会成为云的下一个驱动力。
所以在2022年的时候火山其实就在深度地做这个事情。第一要把供应链做好,要把算力的基础建好。第二算力规模变大之后,需要好的平台配合调度。所以火山在整个GPU的调度、优化上做了非常多的事情,比如算子的优化,整个平台的调度能力的提升,整个MFU提升。一个是要坚定不移地把规模优势发挥好,把模型成本和平台稳定性做好。第二则需要把握住大的技术变革。比较幸运的是火山在这些方面还是看得比较早,也非常准确的。
赵何娟:我听说在2022年的时候,国内有很多大厂都准备要放弃掉AI这个方向,或者说觉得看不到希望,而且把已经采购的或者囤积的GPU的A100的卡可能直接都要准备退还,据说退的这几万张卡都被字节给接了是吗?
赵何娟
,赞635
谭待:2022年的时候确实发生过这样的事情,因为有些友商大量地去做退订。但是那个时候我们很坚定不移地看好AI这个方向,认为AI是驱动云很重要的一块。
当然同时也需要结合自身情况做技术层面的判断。因为刚好我本身技术出身,所以这个选择可能需要结合技术,也要结合商业来判断。因为那时候大模型没有发展起来,那个时候如果有谁说我已经看到了大模型未来的爆发?他肯定是在骗人。但是我们可以看到的是,自动驾驶是很确定的事情,而且除此之外至少有一两个行业已经有很大的体量能够支持大模型的发展。其实放到现在汽车行业在自动驾驶领域也投入非常大,并且在这个领域算力储备也比较雄厚。只不过聚光灯可能更多的看到是大模型的公司,比如说2022年火山和毫末建立了一个驾驶领域最大的算力集群。所以这个领域相当于是火山不仅从技术上有所判断,而且从客户的需求上也验证了这一点。
既做裁判员又做运动员?
赵何娟:现在国内的做大模型的企业和团队非常多,包括像月暗、智谱、百川,在国内来说相对来说有一些知名度的大模型,基本上还是在火山引擎上跑。作为一个行业底层服务的提供商来说,你会觉得国内现在的“百模大战”“千模大战”优势在哪里?或者有一些什么问题?
谭待:首先我觉得这些公司和团队其实做得都非常好,每家也有自己的特色,行业认知水平也在不断提升。
当然这个行业还需要让更多人参与进来:第一模型要好,第二成本一定要低,把100万的成本降低到1万,那进入这个行业的人可能就不是多100倍,而是多1000倍了。可能10个项目里里面,虽然9个项目不一定能成功,但只要有1个项目成功了,可能前期的所有投入就都回来了。
火山做了很多插件平台,做了方舟2.0,以及扣子这个低代码的平台,就是让更多的人能够更便捷地使用大模型。
所以通过这个平台,通过好的模型,通过低的价格,把整个做创新的门槛一降再降,就能看到行业的繁荣。
赵何娟:你觉得做大模型的平台,有必要什么应用都自己去开发吗?既做大模型的底层基座,又在上面去做各种各样的专有模型,会不会给行业造成火山既做裁判员,又做运动员的感觉?
谭待:豆包这个模型,有一个对应的同名的APP,就像OpenAI有个ChatGPT,因为平台需要有一个对应的一个产品,去让用户能很直观地感受到这个模型的好和坏,模型本身是开放的,火山引擎也是开放的。
比如说字节内部也会产生平台的客户,比如说抖音想用这个模型能力做些事情,抖音其实也就成为了火山的一个客户。外部比如说快手也想用,道理也是一样,对于火山来说,就是要保持一个开放性和中立性,只要是客户,就提供同样的优质的服务。
算力之外,大模型的增长动能在哪?
赵何娟:在2022年底ChatGPT发布,全行业爆火之后,据说2023年整个火山引擎的财务业绩翻了好几番。2023年现在的整个的业绩规模和2024年现在半年过去的增长,让你们的财务模型又已经进入了新的平衡点。有没有可能接下来的规划中会更考虑利润的提升?
谭待:我们觉得什么最重要?是有毛利的规模是最重要的,不是只看规模,也不是只看利润。而是要看是带毛利的规模。带毛利的规模决定了可持续性。比如说要做语音,需要组建一个非常大的团队,然而人力成本是非常高的,因为只有很强的团队,才能把技术和产品做好,所以人力投入肯定是最大的开销之一。只要看重和坚持带毛利的规模,最终就可以做到平衡、盈利。
赵何娟:可以说现在火山引擎的算力储备是非常充分的,可以说是前两年的准确的战略判断带来的,那么算力用完了怎么办?可能这两年的财务增长和爆发都是基于之前的储备带来的。未来的持续性如何保证?会不会受到美国制裁的影响?
谭待:首先规模是正循环的,规模大,对未来就有预期,就有信心做更大的投资。更大的投资又能带来更大的规模。所以如果之前的增长是基于我们判断得早,以及我们内外复用的规模优势。我们在这个领域就一直很会很有先机和优势。
第二其实现在算力在当下的这个情况下,是一个异构算力的系统,因为可能每一个团队有不同的芯片的选择,而且不同的芯片有不同的擅长的地方,有的内存很大,有的算力很强,有的兼容性很好,所以就对技术平台本身要求很高,技术的打磨也是很重要的。
第三其实也在看和各家厂商,比如下游的芯片厂商如何合作。我不仅只是说在算力层面,让大家一起能合作得更紧密。比如说我们最近和英伟达一起在中国发布了Omniverse,这样企业可以在中国通过火山引擎来使用Omniverse,这个合作也很重要,第一就是未来物理世界和真实世界可以连接在一起,这样可以用AI通过仿真或者其它方式,不仅改变虚拟世界、数字世界,也能去改变物理世界,所以一方面平台做这个事情。另外一方面通过合作,其实双方也加强了合作的深度和广度,可能关系会更加紧密,也会在其它层面的合作上也会有更多的帮助。
赵何娟:从美国的芯片的出口的规则限制来说,可能中国企业过去还能正常购买A100或者H100这样的芯片。可能将来这种高制程的芯片都是不允许被中国公司购买的,在这一点上来说,可能之前的护城河或者说壁垒,事因为规模在早期带来的壁垒,但这种壁垒可能再经过两三年就被别人取代了。这种前提下,对于火山来说,是不是相关的壁垒就不存在了?
谭待:规模优势是始终存在的。所以不管说会不会涌现出更多的底层的供应商,都会第一时间想到和字节、和火山来合作,所以这个优势是持续的,规模的好处就在这一点。所以我们这一次能把推理的成本做低,也是因为用了异构的芯片,去把它们的特点都发挥出来,所以就能通过分布式推理来做这个事情。
赵何娟:所以从这个角度来说,开源大模型更好?还是闭源大模型更好?。
谭待:不管是开源还闭源,目的都是让大家更多地来使用。
第一开源有开源的商业模式,闭源有闭源的商业模式,大家只是不同商业模式而已,开源有很多成功的公司,闭源也有很多成功的公司。所以第一就是你自己这家公司怎么来选择,不能简单说开源和闭源谁更好。
第二也要看企业的具体需求,企业选开源、选闭源,背后的需求是说,第一性能好不好?第二安不安全?当然开源有安全的解决方法,闭源也有安全的解决方法。
第三就看成本,用开源就代表着底层的算力没有办法在云的池子里面来混合,如果云平台没做好,肯定还是用开源便宜一些。所以对企业来说,要决定自己的战略路线是什么,用什么样的商业模式来做这个事情?但整体上没有必要去争论这个事情。现在豆包是闭源的,但我们将来肯定也会推出豆包某一些系列的开源的模型,我们肯定是这样的一个逻辑。
大模型落地的应用场景和挑战
赵何娟:互联网革命来自C端的爆发,然后逐步延伸至B端,你觉得AI或者大模型的这波2.0的浪潮更可能在C端还是B端率先爆发?
谭待:我觉得可能会是在B端和C端同时开始爆发。
移动互联网可能先是在C端也就是手机端爆发,但如果我们看PC互联网,其实最开始也是工作场景和生活场景不分的。比如邮箱和搜索,用户也是为了获取知识而非娱乐。刚开始软件诞生的时候,很多也是给B端使用。比如70年代时候的软件巨头其实都是做ToB的事情。所以我觉得一个技术的提升,是不一定先从C端爆发,或者先从B端爆发的。
AI能够提升生产力。所以AI在B端有很多天然场景。但实际上当AI能带来很多能力之后,C端用户也就开始在日常生活中使用了。比如说ChatGPT其实有很多付费用户,他们也是同时在工作场景和生活场景中使用。
赵何娟:豆包模型也有ToC和ToB的模型,你们在做这个模型,或者在推出相关模型应用的时候,有什么样的区别?
谭待:首先我们要有一个通用模型,这个通用模型应该是最强的。
比如说豆包通用模型Pro就干这个事情的。豆包通用模型Pro就是可以同时解决C端和B端的需求。而且支持长文本128K可精调。尤其在B端使用的时候,需要让模型做一定的优化,所以能不能可精调是很重要的。
在此基础上,再看哪些场景是很垂直,规模又很大,就可能会把它做一定的特化。比如说角色扮演,看起来可能是C端的使用场景,这个情况下就需要通过AI去和用户在场景中进行交互娱乐,所以我们有一个专门的角色扮演模型。
所以整体核心就是最底层通用的强大,如果没有把最强的底层大模型做出来,后续做专有模型大概率就不会做得好。
赵何娟:下半年你会认为有很多应用出来,从应用场景上来说会有哪些判断?比如说哪些行业可能会跑得更快一些?
谭待:首先终端上肯定还能做出很多创新出来。比如手机、汽车、PC、IOT,这就是为什么我们这次搞两个大联盟,一个是手机的大模型联盟,还有一个是汽车的大模型联盟。还有一些场景,比如说C端的一些助手类的应用,包括Agent,包括搜索。
在企业内部,大模型对于企业就整个知识的管理,包括数据的分析肯定是有很大的辅助。比如说我们做Chat BI,以前CEO问一个问题,底下人不知道,马上就找人去查,查完以后截个图再反馈过来就很慢,CEO说我还想看看别的,就需要再走一次流程。其实这些数据BI里面都有。管理就是一个很大的效率题,我们有个理念叫数据飞轮,以前大家看数据中台讲的是说要积累多少数据,但数据不用是没有意义的,所以应该看数据飞轮每天消耗了多少数据,用了多少数据,消费了多少数据,就要想各种方法去把消费的便捷性和体验做好,Chat BI就是这样,以前信息传递靠口口相传,现在是直接向Chat BI提问,这样就把数据消费的实时性和便利性都提升了非常多。
比如说有个职业叫打字员,也是一个白领,以后可能就再也没有这个职业了,取而代之的可能是一个更智能的“打字员”,它能做扩写,做很多其它的事情,但是我自己还是一个乐观主义者,我认为人类最精髓的部分始终还是在人的这个地方,而且也许人可以跟AI共同进化,而不是说AI取代人。
赵何娟:2022年11月底推出ChatGPT的时候,12月初我们就组织了一个讨论,那个时间段感觉行业里面对这件事情关注度和热度还是非常高的,但是大众领域还没有那么关注,大众领域一直到2023年,可能1月份、2月份才开始爆发性地关注ChatGPT。那个时间OpenAI推出的ChatGPT对你的冲击有多大?
谭待:因为我一直在做云,所以当时我最大的感受是太好了。看来以前想得很对,比如说我们当时内部在讨论说为什么OpenAI可以做出来ChatGPT,因为不是说中国做不出来,美国反而做出来,其实是OpenAI做出来,别人都没做出来。
ChatGPT比我们想象来得更早。我们本来觉得可能还再晚一点点,比如我们再布局几年,可能会有类似的模型出现,而且也在推测比如生信领域会不会更快一些?但没想到大语言模型是最快来的,我想知道下一个是什么,大模型的概念一直都有,但放在那个时间看到ChatGPT你没想到能做到这么大。
赵何娟:有一个典型的应用场景,我们钛媒体自己现在也在做科股数据的大模型。我们也有自己的数据库。我们就想着基于我们自己的自有的数据业务再做一些预训练的尝试,而且能够基于这个大模型还能开发我们自己的应用产品。从场景上面来说可能还不是那么简单的事情,这一点我不知道你是怎么来面对这种像我们这样很具体的场景应用的需求的?
谭待:我们认为大模型落地有三个核心关键挑战:更好的模型、更低的成本和更易落地的工具。其实刚好你这个例子就可以讲讲我们对以上这三个挑战的理念:
首先有比较好的模型,比如说用豆包,可能都不一定要用精调,做一些提示工程就好了。因为豆包的底座能力是很强的。这样其实基础功能就可以满足了,但是要把这个应用做好,其实还要做很多事情,比如说需要联网,因为财经的数据,是需要有很多实时的数据更新。所以我们方舟推出了联网的平台,而且它能拿到独有的内容,这样你就可以更好地去获得信息和内容。
第二是知识库的搭建,自己积累的知识库是很重要的,可以去帮助这个模型在应用的时候减少幻觉,提高精准度。这个是很重要的,比如有些东西已经在知识库做好了,就从这个受限的知识库里面出内容,而且做到有一些东西让它不要瞎说。
第三就是考虑到用户的交互,用户使用的时候可能只有文字的内容是不够的,还需要有一个视频,所以我们还做了一个内容插件,这样一方面去让大模型去回答问题,出数据报告的时候,还可以去把相应的视频内容播放出来。
除此之外用户在很多使用过程中有很多细碎的需求。这些细碎的需求可能需要做一个对应的Agent,来去解决它,通过扣子平台。比如说用户需要了解和体育相关的公司的财经知识,不需要写代码,只需要编辑或者是其他业务人员,用扣子平台很快就能搭建一个这样的一个小助手一个Agent。让它和应用放在一起,当用户来的时候,小助手就可以自动调出来回答用户的问题。
最后,我们还配了一个叫算法BP团队,就是算法服务团队。因为他们有很多经验,他们其实就是火山AI相关的算法人员。有需求的客户团队所以可以和算法BP团队的技术人员先对接一次,帮助把这套基于AI基于大模型来开发和应用的流程建立起来。未来就可以不断去更新它来运转起来。这样操作会让整个服务更易落地,同时还能够有一套配套的服务体系来帮助客户完成既定目标。
文章来源:钛媒体