2025年多模态技术快速发展,中国创业团队在内容生成领域正在形成领先优势。
与美国在大语言模型领域的领先不同,中国企业在视频生成、3D创作等多模态细分领域已跻身全球第一梯队。
像Pixverse的视频生成产品用户规模超过许多美国知名产品,VAST在 3D技术上实现核心突破,Feeling AI则探索出多模态融合的创新路径。
这些成绩背后,是中国创业团队在场景理解、数据积累和工程落地方面的综合优势。
在近日举办的2025 AI Cloud 100 China榜单发布会上, 晚点LatePost科技负责人、《晚点聊》主播程曼祺主持了一场圆桌对话,与Pixverse爱诗科技联合创始人 谢旭璋、Feeling AI创始人 & 首席科学家 戴勃,以及VAST创始人 &CEO宋亚宸,深入探讨了 “多模态内容生成,为什么是属于中国公司的机会?”。
三位行业嘉宾深入分析了中国创业团队的优势所在。
谢旭璋提到,中国团队在视频技术领域有多年积累,抖音、快手等产品背后的视觉技术为视频生成奠定了基础,而组织架构的灵活性也助力了创新。
戴勃指出,多模态领域技术路径尚未定型,中国丰富的应用场景和人才储备为创新提供了沃土。
宋亚宸则表示,中国团队通过差异化技术策略实现突破,在3D领域从核心技术攻坚转向了产品化落地。
对话中,嘉宾们还围绕大厂竞争、技术趋势等话题展开讨论。
面对阿里、腾讯等巨头的入局,创业公司通过保持战略定力、聚焦细分需求寻找突破口。
在技术层面,实时生成、多模态融合成为重点方向,比如Pixverse致力于实现视频的实时生成,VAST则探索3D创作的工作流优化。
对于未来,嘉宾们期待通过技术进步降低创作门槛,让更多普通用户参与到多模态内容创作中,推动新的内容生态形成。
阅读目录
1. 多模态生成,为何机会属于中国团队?
2. 大厂竞争是创业公司的 "成人礼"
3. 实时生成与多模态融合的下一站
4. 未来一年:目标与挑战
以下是经牛透社编辑整理的对话内容:
01
多模态生成,
为何机会属于中国团队?
程曼祺:相比大语言模型美国仍处于领先地位,在多模态生成领域,中国的团队已经展现出引领的趋势,至少与全球顶尖团队旗鼓相当。
据你们的观察,为什么中国团队在多模态生成领域——尤其是视频和3D生成方面——能够具备独特的优势?
谢旭璋:我们的核心团队很多来自字节,有一个重要认知,即过去5年-10年 全球最具影响力的视频产品和技术,很多是中国团队打造的,比如抖音、快手背后的复杂视觉技术。在视频技术领域,中国团队在人才和经验上都有显著积累。
目前全球用户量最大的几个视频生成产品,多数来自中国团队,包括可灵和我们。我们的用户规模已超过许多知名美国产品。
视频生成的关键在于与场景的结合,这正是中国团队的优势所在。在视频领域,中国团队在技术和应用层面仍有巨大发展空间。
程曼祺:抖音、快手都是中国公司的产品,但外界注意到一个有趣现象:在视频生成领域,快手旗下的可灵反而率先取得突破。为什么会出现这种情况?字节作为行业巨头,为什么没能抢占先机?
谢旭璋:这确实是个有意思的话题。记得可灵刚发布时,他们邀请全行业交流,最后只有我去参加了。
当时大家讨论这个问题,得出一个看似玩笑但很有启发的观点:在字节,视频生成业务 "有人管";而在快手,可灵 "没人管",反而做成了。
这反映出,除了技术实力外,组织架构和团队管理往往才是决定成败的关键因素。
戴勃:从技术角度看,多模态内容生成是中国团队的重要机遇。与相对成熟的语言模型不同,多模态领域的技术路径尚未收敛,无论是模态组合还是架构设计,行业都处于百花齐放的状态。
这种开放性非常适合中国团队的创新特点:一方面,中国丰富的应用场景为技术迭代提供了充足的反馈空间;另一方面,华人工程师本就是全球多模态研发的主力军,我们在人才基础上具有天然优势。
宋亚宸:海外3D创业公司确实起步较早,像a16z投资的CSM、Kaedim等团队在产品化方面做得不错。
但中国团队能实现技术领先,关键在于差异化战略,当海外对手专注产品打磨时,我们集中火力突破核心技术。
就像摄影领域,他们做出了功能丰富的360P相机,而我们专注打造画质更优的720P/1080P方案。事实证明,创作者更青睐画质而非功能。
现在行业正从分辨率竞赛转向产品化阶段,技术差距缩小后,下一阶段的竞争重点将是工程化和商业化能力。
这场马拉松才刚刚开始,胜负尚未可知。
02
大厂竞争是创业公司的 "成人礼"
程曼祺:刚才我们谈到了几个关键优势:一是人才储备,像字节、快手这样的公司培养了大量人才,计算机视觉领域的 "四小龙" 和商汤等也积累了雄厚的研究力量;二是场景丰富性,你们三家都是既做模型又做产品的代表。
但2023年创业时这个方向还不算热门,现在情况已经大不相同,大厂纷纷入局,阿里开源了通义2.0视频生成模型,腾讯也发布了混元3D系列的五款开源模型。
面对大厂的开源攻势和资源投入,你们是否需要调整战略?是否会考虑更多地聚焦在应用层?
宋亚宸:我们对这个问题的体会是,创业公司最大的护城河就在于保持战略定力。
在AI 3D领域,我们选择了一条差异化路径,当大厂尚未关注时,我们就全力投入核心技术研发;当我们聚集了顶尖科学家、实现技术突破后,大厂才开始跟进;现在我们转向产品化和商业化时,他们又在补课。
这种战略节奏的领先让我们始终快人一步。
说到这个,我想起刚才和群核科技交流时听到的一个精妙比喻:大厂竞争是创业公司的 "成人礼"。
只有真正通过这场考验,创业公司才算真正成熟。
程曼祺:能具体说说你们遇到的大厂竞争案例吗?
宋亚宸:最近就有个典型案例。上个月HR很焦虑地找我,说现在招人比创业初期难多了,是不是公司出了问题。我解释说这恰恰说明行业在变热。
当初我们押注AI 3D时,这是个非共识方向,聚拢顶尖人才相对容易;现在随着我们的成果被验证,越来越多人相信这个方向,竞争自然加剧。
作为创业公司,我们吃的红利就是先相信再看见。
大家不相信的时候我们下手做了这件事,在别人没有重投入的时候,我们聚拢顶尖的科学家相对容易。
当大家看到我们做出来,也开始相信这件事的时候,自然这件事会变难。不管是在招人上,还是在一些算力本身的抢夺上,一定会面临和大厂的竞争。
但是作为创业公司,我不能一直和它卷这个,我们的优势就是做下一件事。
去年底开始做Tripo Studio工作台,上个月正式上线,这个时候抢的是工程和产品人才,这些人才在3D很缺。
戴勃:我想补充一个观点:创业公司面对大厂竞争时的机会,恰恰来自多模态领域尚未形成技术共识这一特点。这个领域仍充满可能性,无论是3D生成还是其他模态融合,都存在大量未被定义的创新空间。
从技术实现来看,我认为细节决定成败。单纯讨论Transformer等大框架很难体现技术差异,真正的竞争力体现在产品与技术的深度融合上。
我们坚持ToC产品的整体思维,技术要为产品体验服务,能用产品方案解决的就不强求技术突破;但关键需求必须回归技术本源,很多看似可用的方案在实际落地时往往差之毫厘谬以千里。
关于开源,我们持辩证态度。开源的积极面是避免了闭门造车,比如DeepSeek的开源确实拓展了行业想象空间;但它也存在局限性,直接使用往往难以满足特定场景需求,需要在开源基础上进行深度定制。
本质上,开源是创业公司可以借力的东风,但绝不能替代自主创新。
程曼祺:你们的自研模型肯定是闭源的。
戴勃:细节决定成败,闭源肯定是要闭的,整个东西是一个很机密的工程,它需要你的技术模型和模型本身的数据,还有你的工程和产品整个合起来才能达到最终的效果,所以我们不会一整套拿出来交流,但一些模块,比如说技术的思路这些东西,可以在某个恰当的场合进行交流。
谢旭璋:开源和闭源这个问题,我觉得要分几个层面来看。
过去这一两年,开源确实对整个视频生成行业的发展起到了很大的推动作用,让更多人可以接触到这个技术。但说实话,现在真正跑在最前面、用户体验最好的,还是几个闭源模型。
打个比方,这就好比我们研发出了一个10亿像素的超高清摄像头,但如果没有好的设备来承载它,用户其实也用不出它的价值。
所以我们一直在思考两个问题:一是怎么把模型做得更好,二是怎么让模型真正为用户创造价值。
现在行业里最好的开源模型,生成一个高质量视频可能要好几分钟,但我们的模型几秒钟就能搞定。这里面的差距,主要就是在工程化和产品化上的投入。
从开源代码到真正能用的产品,中间还有很长的路要走。
03
实时生成与多模态融合的下一站
程曼祺:面对大公司竞争时,这个领域的机遇在于存在大量细分选择和非共识性的技术路线。您认为多模态生成领域下一个技术突破点会是什么?刚才提到自回归模型,OpenAI今年也有所提及但表述模糊。您观察到哪些重要趋势?
戴勃:说到技术趋势,虽然细节很复杂,但我可以分享几个关键方向。目前最值得关注的是 "生成与理解的统一" 这个趋势,GPT-4o强调的原生多模态就是典型例子。
以前的做法是把图像、文字等不同模态分开训练,再想办法拼接在一起。现在的新思路是让它们在训练时就共享同一个语义空间,实现真正的融合。这种做法的好处很明显,可控性更强,能保持主体一致性,指令执行也更精准。
用现在流行的Agent概念来理解的话,可以把语言模态看作一个智能Agent,其他模态就像是它使用的工具。
通过不断迭代,这个Agent能越来越准确地理解图像等内容,就像人使用工具越来越熟练一样。这样的融合效果自然会更好。
程曼祺:作为主要做生成的公司,多模态生成与理解的统一对你们来说是必须实现的吗?
戴勃:是的,但关键在于统一的方式和维度。我们需要考虑模态间的技术统一,产品与用户需求的对齐,以及技术能力与用户预期的匹配。
这种多维度的统一就像是在走平衡木,任何一方的偏差都会影响最终体验。比如用户期待的和模型实际能做的如果有落差,体验就会打折扣。
程曼祺:但大厂都在布局这个方向,对创业公司来说投入这么大资源值得吗?
戴勃:这个问题很有意思。首先,竞争永远存在,关键是要找准自己的赛道。我们不像大厂追求大而全,而是专注目标用户的核心需求。只要定位精准,投入产出比反而更高。现在技术工具越来越成熟,实现这种精准统一并不需要想象中那么大的投入。
程曼祺:之前和Pixverse交流时,你们特别提到关注实时生成这个方向。现在生成视频的时间已经可以比观看时间更短,这会带来哪些变化?
谢旭璋:目前我们的线上模型已经能做到接近实时的生成速度,大约5 秒就能生成5 秒的视频内容,这应该是目前高质量视频生成中最快的速度。
这个进步很关键,因为过去视频生成最大的痛点就是等待时间太长,普通用户要等1分钟~2分钟 才能生成一个5 秒的镜头,这种体验是不可接受的。
所以我们一直在探索如何既保证模型质量,又能大幅提升生成速度。未来一年内,我们的目标是实现真正的实时生成。当技术达到这个水平时,一定会催生很多全新的应用场景。
程曼祺:是不是可以想象这样的场景——我一边玩游戏,游戏里的内容也能实时生成?
谢旭璋:没错。现在国内外不少团队都在探索这个方向,但我们的做法是先做出实际可用的技术,再去谈应用场景。
从本质上说,游戏本身就是一种视觉内容。当视频能够实时生成时,很可能会在短视频和休闲游戏之间催生出一个全新的内容形态 —— 可实时互动的视频游戏。
这可能是最大的机会所在,所以我们当前的重心还是继续突破核心技术。
程曼祺:从用户反馈来看,你们接下来的技术迭代方向是什么?
宋亚宸:对我们来说,自回归和速度都是关键方向。
我们原本走的是传统3D生成路径,做高精度的模型,就像用沙子慢慢风化成型那样,通过不断增噪和降噪来实现最终效果。现在我们转向自回归路线,这就像小朋友玩的磁力片 —— 不断预测下一个三角形磁力片该放哪。
这样生成的模型面数很低,在实时渲染时效率很高。而且它的拓扑结构和布线跟人工建模很像,方便后续二次编辑。
速度确实很重要,很多时候用户等不了。虽然专业用户能忍受30秒、1分钟的生成时间,但像我们和网易《燕云十六声》合作的 "万物太极" 功能,就需要极速生成:玩家说要一座桥过河,或者要个梯子拿宝箱,如果等1 分钟才出现,体验就完全不对了。
所以我们专门做了极速版来满足这种实时交互的需求。
程曼祺:在你们和网易的合作版本中,从玩家发出指令到生成桥或树这样的3D模型,实际需要多长时间?
宋亚宸:低于5s可以形成3D模型,生成的质量次一点,但还是比较快的。因为UGC对本身的质量要求没有专业用户这么高。
程曼祺:从产品迭代来看,你们都经历了用户定位的调整。Pixverse最初只做专业用户的网页版,今年5 月推出了面向大众的 "拍我"App;VAST早期定位游戏玩家,现在转向专业用户的VAST Studio。
你们可以分享这个过程,为什么有用户选择的变化,背后的技术或对竞争和机会的思考是什么?
谢旭璋:回顾2023年初我们刚开始做视频生成时,这个领域还不太热闹,大多数公司都没入场。
这主要有两个原因:一是技术限制,第一代视频生成能做ToC的场景很少,更多是专业用户在用;另一个是当时的生成效果有很多局限,比如动作幅度小、生成时间长等等。
但我们公司从创立起就有一个明确目标,要用AI技术让普通人都能创作视频。
现在视频已经成为最重要的信息媒介,每天几十亿人在看长短视频,但真正能创作优质视频的人可能连5% 都不到。抖音快手上能做出高质量内容并获得推荐的创作者实在太少了。
去年我们发现图生视频技术终于达到了一个临界点,普通人也能用了,于是我们在模型之外做了很多产品化的尝试。用户不需要写文案,用超快的模型,点几下就能生成高质量视频,还能一键分享。
现在我们的用户中大部分是普通用户,专业用户占20%~30%,证明这个方向是对的。
程曼祺:所以现在是两个独立产品?
谢旭璋:对,我们采取双轨策略,网页版主要服务专业用户,移动端 "拍我"App则是面向大众的短视频创作工具。
程曼祺:我看移动端是用一张图片就能生成5秒~8秒 的视频,不需要输入复杂指令,直接选模板 "做同款" 就行。
说到这个,上周末我用剪映的 "剪同款" 功能做了个抖音视频,这种模板化生成是你们首创的吗?
谢旭璋:确实是我们最早做大规模模板化生成的,现在也是用户量最大的。这个模式验证了我们的判断,降低技术门槛,让普通人通过简单操作就能获得不错的播放量,这才是AI视频普及的关键。
程曼祺:你们担心剪映的用户会很快超过你们吗?
谢旭璋:目前来看还没有。其实这个市场足够大,剪映做了这么多年,也才服务了抖音5%~10% 的用户。还有90% 的用户从来没创作过视频,这是个巨大的增量市场。
我们的重点不是互相竞争,而是共同服务好这些想要尝试视频创作的新用户。
程曼祺:你们后来推出的专业版产品Box,这个调整过程中有什么故事可以分享吗?
宋亚宸:说实话,我们需要承认一个判断失误 —— 不只是我们,可能整个行业在过去两年都走错了方向。当然,现在说这是 "错误" 还为时过早。
程曼祺:你说的 "错误" 具体指什么?
宋亚宸:这个认知偏差要从行业共识说起。我们总把AIGC分为文字、图片、视频、3D四个领域,3D被视为最后一个 "C"。
这种分类让我们在设计产品时,很自然地模仿其他模态的交互方式 —— 就像文字、图片都采用对话框那样,3D领域最初也是简单做个输入框,用户输文字或图片,系统返回3D模型。国内外同行都是这么做的,初期效果也不错,我们很快积累了两三百万用户。
但去年底的深度复盘让我意识到问题所在:3D与其他内容形式存在本质差异。
文字有输入法,图片视频有拍摄工具,这些都是真正的大众创作入口。而3D领域至今没有类似的基础工具 ——3D打印机是硬件设备,不能用来创作数字内容。
这就导致3D内容生态存在先天缺陷:只有PGC(专业创作内容)和下载行为,真正的UGC(用户生成内容)几乎不存在。
在我们入场前,这个市场根本没有形成真正的用户创作生态。
我们行业之前对UGC的定位存在根本性误区。其他竞争对手都在做面向普通用户的3D生成产品,这就像给普通人一个代码生成器却不教他们如何部署 —— 连基础操作都不会,更别说debug了,这怎么可能形成真正的UGC生态?
经过深入思考,我们调整了策略:先服务好专业用户和准专业用户(PUGC),这个群体有1千~2千万 专业用户,数千万的PUGC创作者。然后,打造真正的创作工具,不是简单的模型生成,而是完整的工作流,覆盖模型生成、贴图编辑、纹理处理、部件拆分与重组、骨骼绑定等。
这些专业功能看似复杂,但正是保留创作者创意的关键。就像专业视频剪辑软件虽然复杂,却是内容产出的核心工具。
展望未来,3D领域也需要自己的 "美图秀秀",帮用户简化操作,提供模板,降低创作门槛。Pixverse的内容模板模式就很有参考价值。不过目前这样的产品还没出现,可能明年会有突破。
程曼祺:戴勃,能透露下你们即将发布的产品形态和目标用户吗?
戴勃:我们主要面向海外14-24岁的年轻群体。产品结合了轻度游戏元素,用来消磨时间;具备内容创作功能,让用户获得社交认可;还有虚拟陪伴体验,解决内向用户的社交需求。
我自己就是个典型用户,作为重度游戏玩家,从红白机到手游都玩,偏爱单机游戏。作为内容消费者,我一直在思考AIGC的本质价值。
程曼祺:能再具体些吗?
戴勃:从用户视角看,AIGC正在模糊创作者和消费者的界限。随着技术发展,生成速度越来越快,交互越来越实时,多模态逐渐融合。
这带来一个有趣现象,用户可能最初只是来消费内容,但如果对现有内容不满意,可以立即自己动手修改或创作 —— 因为工具门槛已经足够低。
这种 "边消费边创作" 的混合模式,正是我们产品的核心理念。
程曼祺:看来VAST现在推的产品方向,和2024年初聊的很相似。
宋亚宸:没错,就是做 "3D版抖音" 那个构想。
程曼祺:记得当时还讨论过模型融合的技术方案。
戴勃:AIGC最显著的优势就是交互反馈越来越即时,而且能提供高度个性化的内容生成体验,这个特性很有发展潜力。
程曼祺:你觉得2025年-2026年,技术进步能让更多普通的ToC用户创作和消费3D内容吗?
戴勃:我认为会,而且重点在于动态3D内容。我们内部研发已经看到这个趋势,AI确实加速了进程。
其实即便没有AI,整个行业也在往这个方向发展,只是AI让这个未来来得更快了。
程曼祺:现在行业都在热议Agent,但你们的新产品VAST Studio并没有跟风用这个命名。爱诗也没做Agent,你们怎么看这个概念?
宋亚宸:我们不用 "Agent" 这个词很简单 —— 我们的用户听不懂。产品命名必须让目标用户一目了然。我们的专业用户对 "工作站" 这个概念很熟悉,但说到 "Agent" 就完全不知所云。
产品定义应该基于用户的实际需求,而不是追逐行业热词。
程曼祺:Agent面向媒体、投资、创投圈吗?
宋亚宸:我不知道。
谢旭璋:Agent还是要考虑最终给用户创造什么价值,移动端的App里加了Agent要等很久,要写让Agent干什么。
我们的产品和交互已经很简单了,就是拍照、选模板、生成、一键分享。我们思考Agent帮到哪一个环节让用户有更好的体验,好像在ToC上现在没有想太明白。
但我们在专业的创作,比如视频创作的工作坊里面Agent有价值。一个视频或者说视听作品有多模态的问题,从叙事到不同镜头的剪辑到配音和配乐和转场,这里需要Agent解决问题。
我们有的同行做的Agent方向很好,我们也在思考怎样才能真正地定义好视频创作的Agent产品。
程曼祺:就是让AI更多参与、自动化程度更高的视频创作工具?
谢旭璋:对,现在AI做完整的视听作品本身很难,有了很好的Agent可能只迈出一小步。好的视听作品底层是好的故事,好的故事并不是什么Agent都可以做出来的,有很多需要解决的问题。
戴勃:我会想Agent的定义是什么,不同的人可能对这个东西的定义不一样。
原生多模态可以认为是语言作为一个Agent和其它的模态进行交流,带来的好处就是以前是大家合并起来训练。
但有了Agent以后,可以把不同的模块联合起来,训练的时候让不同模块协同工作,整体可以看成更强大的模型或者说一个技术的管线可以做的事情就会更多。
04
未来一年:目标与挑战
程曼祺:看来你们都更关注技术实质。展望未来一年,你们希望达成什么目标?又将面临哪些挑战?
谢旭璋:技术目标:希望一年后可以有高质量的实时生成视频模型;用户目标:现在接近1 亿用户,希望一年后可能有3亿~5亿 用户。
戴勃:希望明年可以进AI Cloud 100 China榜单。明年主要的任务就是希望产品可以被更多的人使用,希望大家在此过程中可以沉淀更好的优质内容。
宋亚宸:我们的信仰是3D一定会出现大众级别的创作工具,降低用户创作门槛和成本,每个人都会参与3D可交互的内容创作中,可以自己做游戏、动画。
如果这件事诞生,未来有机会出现所谓3D的抖音,UGC内容平台可以分发这些内容。明年是有机会让大部分人以低门槛、低成本,几乎实时的方式创作属于自己简单的3D可交互内容。
这种内容形态我们认为是明年最大的挑战,也是我们希望探索的东西,它会以什么样的内容生态出现,哪一些好玩的内容范式,我们和创作者一起探索。
程曼祺:感谢今天三位分享,回顾各自公司发展过程,反思和挑战,也展望接下来一年的时间里大家想达到最重要的目标。
注:文/牛透社,文章来源:牛透社(公众号ID:Neuters ),本文为作者独立观点,不代表亿邦动力立场。
文章来源:牛透社