加载中

为什么“多模态卷王”阶跃星辰积极拥抱开源?

赵健 2025/02/21 16:56

在DeepSeek效应下,今天的开源AI市场正在形成一股洪流。

过去短短一个月的时间里,海内外至少有三家业内领先的大模型公司宣布了开源计划,按照时间顺序为:

· 1月15日,MiniMax发布并首次开源了其最新一代基础大模型MiniMax-01,并公开技术报告;

· 2月1日,OpenAI CEO Sam Altman在发布o3 mini推理模型的同时,公开承认OpenAI过去“站在了历史的错误一边,需要找出一个不同的开源策略”;

· 2月14日,百度宣布将在未来几个月中陆续推出文心大模型4.5系列,并于6月30日起正式开源。

2月18日,又有一家国产大模型公司宣布战略级开源计划。

“大模型六小虎”之一的阶跃星辰联合吉利汽车集团开源了两款多模态模型:截至目前全球范围内参数量最大、性能最好的视频生成开源模型Step-Video-T2V,以及行业内首款产品级开源语音交互大模型Step-Audio。目前,两款开源模型均可以在「跃问App」上免费不限次体验。

如果说DeepSeek为开源社区树立了文本大模型的新标杆,那么阶跃星辰正在开源社区树立新的多模态大模型标杆,形成大模型开源世界的又一股中国力量。

最好的开源视频生成模型


20250219_1739958954995.jpeg


阶跃星辰此前发布的模型都是闭源模型。虽然性能很强大,但模型具体是如何训练的,外界无从得知。这一次,阶跃星辰首次开源了两款Step系列多模态模型Step-Video-T2V以及Step-Audio。

根据阶跃星辰公布的技术报告,Step-Video-T2V具有300亿参数,能够生成长达204帧的视频,支持中英文双语提示。该模型采用了深度压缩变分自编码器(Video-VAE)、扩散Transformer(DiT)和视频直接偏好优化(Video-DPO)等技术,以提高生成视频的质量。

阶跃星辰在技术报告中定义了构建视频基础模型的两个层次。

Level-1为翻译型视频基础模型,是一个跨模态翻译系统,能够从文本、视觉或多模态上下文中生成视频。当前基于扩散模型的文本到视频模型,比如Sora、Veo、Kling、Hailuo和阶跃星辰的Step-Video,目前都属于Level-1。

Level-2为预测型视频基础模型,能够像大语言模型那样根据根据文本、视觉或多模态上下文预测未来事件,并处理更高级的任务,例如多模态数据推理或模拟现实场景。

阶跃星辰认为Step-Video-T2V是Level-1阶段,截至目前全球范围内参数量最大、性能最好的开源视频生成模型,并将继续探索Level-2。

在benchmark表现上,阶跃星辰专门构建了一个用于评估文本到视频模型质量的新基准测试。该基准包含128个来自真实用户的中文提示,旨在评估生成视频在11个类别中的质量,包括体育、美食、风景、动物、节日、组合概念、超现实、人物、3D动画、电影摄影和风格;同时阶跃星辰还提出了两种人工评估指标。

基于该基准,Step-Video-T2V要整体优于腾讯的开源模型HunyuanVideo。

Step-Video-T2V是一个“真开源”模型,采用了最为开放宽松的MIT开源协议,用户可任意编辑和商业应用,做到了毫不隐藏、完全开源,具有最大的诚意。

作为对比,Llama3.1 的开源协议虽允许商用,但要求显著提示“Built with Llama”,并且对于月活用户超过7亿的情况,需要向Meta申请额外许可。Qwen2.5主要采用了Apache 2.0协议(3B与72B除外),会比MIT开源协议的限制更多一点。

阶跃星辰开源的另一款模型Step-Audio,是业内首款「产品级」开源语音交互模型,全力降低产业接入门槛。不同于市面上的开源方案需要经过在部署和再开发等工作量,Step-Audio 是一整套实时对话方案,只要简单部署上就能直接实时对话,可以端到端体验。

目前,这两款开源模型已经可以在「跃问App」体验。其中,视频生成免费,不限次数,可直接使用。以下是部分生成案例:

提示词:镜头跟在一辆白色老式 SUV 后面,车顶架是黑色的,它在陡峭的山坡上加速行驶。

提示词:一位身穿浅色纱质服饰的女子,头戴精致的头饰,面带微笑。镜头以特写展现她姣好的面容和温婉的气质。随后,镜头切换到一位男子,他戴着透明面纱,眼神凝视着前方。平视镜头特写展现了面纱的质感和男子若有所思的神情。场景再次切换,男子身穿黑色长袍,衣襟和袖口处有暗纹装饰,神情严肃地站在一个类似庭院的环境中。中景镜头展现了人物的全身以及周围环境,营造出一种神秘的氛围。

提示词:一个精灵,在森林中起舞,身旁是萤火虫环绕,月光透过树叶,慢速展现精灵的轻盈,画面梦幻唯美。

2.开源会泄露核心技术吗?

阶跃星辰一口气把自己最核心的多模态技术给开源了。

对于开源的态度,业内众说纷纭。一个最直接、最常见的疑问就是,开源会泄露核心机密吗?开源行为真的是为爱发电吗?

首先,开源模型与闭源模型之间并非完全的对立关系。除了Meta、DeepSeek这些完全采用开源战略的公司之外,大部分AI公司选择了开源与闭源并行的战略,比如谷歌。

“开源模型”本身的定义也有诸多争议。在一些开源的原教旨主义者眼里,大模型的开源并非像开源软件那样直接把底层代码开源,其实是一种“伪开源”。

实际上,开源模型开源的是“权重”,权重就是大模型经过复杂的训练后得到的模型参数,开源模型允许用户自由下载和使用这些权重,但是无法修改与复现。因此,开源实际上并没有透露AI模型背后的核心竞争力。

开源的意义更多在于生态效应。现在所有的AI研究追根溯源都得益于开源社区,比如当前几乎所有大模型的基本架构都来自于谷歌在2017年发布并开源Transformer论文。开源者站在开源社区的研究成果上继续研究,并提出新的想法来回馈开源社区。

从技术角度来看,开源其实是一种秀肌肉的行为。只有开源模型性能真的有足够的竞争力,才能吸引到用户与开发者使用,这样的开源才有意义,否则只会变成技术自嗨。

从商业角度来看,开源的主要目的是吸引用户、开发者、潜在的合作伙伴以及吸引人才,DeepSeek就是一个活生生的案例。当一个开源模型积累足够的用户,就有可能围绕开源社区进一步构建成为AI时代的操作系统。

基于这样的背景,阶跃星辰选择在今天开源,正是一种技术自信的体现。

3.多模态卷王的技术实力

不同大模型公司往往有一个独特的标签,比如长文本、虚拟角色等,而阶跃星辰最大的特色无疑是一直在领跑行业的“多模态”能力。

阶跃星辰也是多模态领域布局最全的大模型公司之一,旗下模型涵盖语音识别、语音复刻及生成模型、视频理解模型、图像生成模型、视频生成模型、多模态理解等各种类别。而且阶跃星辰保持了很快的研发节奏,自公司成立以来已经先后发布11款多模态大模型。

在模型性能上,Step系列多模态模型曾多次在国内外权威大模型评测榜单上位列「中国大模型第一」。

比如,1月20日,LMSYS Org发布了大模型竞技场Chatbot Arena最新榜单,Step-1o Vison在其中位列视觉领域中国大模型第一,超过所有国内大模型公司;在最新发布的国内权威的大型模型评估平台“司南”(OpenCompass)多模态模型评测实时榜单中,Step-1o Vison也实现了霸榜。

在AI自媒体赛博禅心发布的“大模型视力表”测评中,阶跃星辰多模态理解能力明显超越国际顶尖模型ChatGPT和Claude,在视觉识别能力和准确度上十分突出。

越来越多的企业与AI应用开发者正在基于阶跃星辰多模态大模型构建产品。数据显示,2024年下半年阶跃星辰多模态API的调用量增长了超45倍。

头部茶饮品牌茶百道与阶跃星辰已达成深度合作,目前全国数千家茶百道门店已经接入阶跃星辰Step-1V多模态理解大模型,平均每天上百万杯茶饮在大模型智能巡检的守护下送到消费者手中。

网红AI应用「胃之书」基于阶跃星辰多模态能力,帮助用户以更快捷有趣的方式记录饮食,开发者赵纯想公开表示曾对国内大部分模型做过AB测试,最终发现阶跃星辰付费率最高。

AI心理疗愈应用「林间聊愈室」通过阶跃星辰多模态能力让用户和聊愈产品实现多模态视觉互动,极大地丰富了交流体验和深度。创始人李神龙称,接入阶跃星辰大模型后,产品整体付费率有所提升。

将这些业内顶级的多模态能力开源之后,阶跃星辰有望构建一个更加开放的多模态生态。

4.与DeepSeek并肩成为两大中国新锐开源力量

如果说DeepSeek为开源社区树立了文本大模型的新标杆,那么阶跃星辰正在开源社区树立新的多模态大模型标杆,形成大模型开源世界的又一股中国力量。

两款多模态大模型一开源迅速点燃了外网,Hugging Face工程师、前谷歌TensorFlow团队成员TieZhen Wang发推文评价称,“阶跃星辰就是下一个Deepseek”。

国外网友也纷纷点赞中国大模型公司为开源社区做出的贡献。

虽然核心大模型聚焦的领域有所差异,但两家公司同为大模型创业公司,倒是有一些共性。

比如,两家公司都非常年轻,且都有极致且鲜明的技术理想主义。DeepSeek虽然是从量化基金孵化,但要做的事情是探索通用人工智能,是一种好奇心驱动的研究。而阶跃星辰成立至今,也一直以实现AGI为目标坚持自研基座大模型,已经覆盖了从千亿参数到万亿参数,从语言、多模态到推理,从理解到生成的全面能力,是国内基座模型覆盖面最广的大模型公司之一。

两家公司在研究成果上也有不菲的成绩,都多次在国内外权威榜单上霸榜不同领域的中国第一。

不久前,全球影响力最大的科技商业化智库《麻省理工科技评论》(MIT Technology Review)刊发了一篇题为《关注DeepSeek之外的四家中国人工智能初创公司》的报道,在其中指出阶跃星辰展现出不逊于DeepSeek的技术实力与全球竞争力。

在开源领域,过去海外公司有更加深远的影响力。而如今,随着DeepSeek、阶跃星辰等中国大模型公司的先后开源,中国AI公司开始在全球AI开源舞台发挥越来越重要的作用。

在接下来的AI时代,中国AI公司有望领跑全球科技,为开源社区贡献中国力量。

文章来源:甲子光年

微信
朋友圈

这么好看,分享一下?

朋友圈 分享

APP内打开

+1
+1
微信好友 朋友圈 新浪微博 QQ空间
关闭