广告
加载中

对标文生视频模型Sora 中国挑战者Vidu只差一点

雷科技 2024/04/29 11:05

2个月前,OpenAI发布了全新的文生视频模型Sora,瞬间引爆了全球科技圈,也让马斯克说出了「人类愿赌服输」。在那之后,没有任何一个大模型敢于在文生视频领域「挑衅」Sora。

现在,事情有了变化。

在4 月27日举办的2024中关村论坛上,生数科技与清华大学联合发布了「Vidu」文生视频模型,全面对标OpenAI的 Sora。

不仅是在视频生成分辨率和时长上,最关键的根据官方放出的生成视频,Vidu已经实现了相当程度的「拟真」——模拟真实世界的物理原理,以及主体的一致性。这是Vidu真正对标Sora的底气。

但Vidu,离Sora到底还有多少差距?

对标Sora,Vidu还差「一点」

从这次发布可以看出,Vidu处处都在对标Sora。同样是通过提示词直接生成视频,同样支持最高1080P,虽然16秒的生成视频时长还明显短于Sora(最长60秒)。

最明显的还是生成的视频内容。

比如Sora街头行走这一段,相信会看这篇文章的读者应该都看过,一度刷爆了各大社交媒体

Vidu也同样生成了类似的视频内容,开始展示了一男一女一熊走在街头的画面,随后又重点展示了熊人的背景街道。

虽然相比Sora那段少了很多震撼和细节展示,但不管是皮衣的质感,还是路面的反射和倒影,Vidu其实都展现了非常有说服力的效果。

更重要的是,背景、人物主体是一致的,并没有在前后发生大的变形或变化。

类似的表现还出现在其他生成视频上。

比如开车这一段,镜头一直跟随着汽车前移,但路旁的树木和汽车主体始终没有发生变化,并不像很多扩散模型一样,这一秒和下一秒的主体都可能出现明显的差异。

不过在保真度上,Vidu还是和Sora有比较明显的差距。相似的提示词(内容)下,Sora开车这一段的背景明显更接近真实世界,用比较通俗的话讲,Vidu有点「油画」。

但显然,Vidu作为国产大模型,还是更懂中国。

Sora在之前曾经生成过一段街头「舞龙」的视频,而Vidu干脆直接生成了一段「真龙」的视频,背景是辉煌的宫殿群。

如果Sora的重点与其说是舞龙,实则更像展现「围观群众」的惊人模拟,那Vidu就是真真正正模拟了一条龙。

此外,Vidu还生成了一段「熊猫在湖边弹吉他」,除了主体上的拟真,背景部分的草地、湖水都相当程度地「真实」。

在人物生成上,Vidu也有一组画面充分展示了它的实力,从面部表情、眨眼到抬头,都非常接近实拍镜头。就算比起Sora的人物镜头,也不逊色多少。

另外考虑到要参与视频内容制作流程,这类文生视频模型也绕不开「镜头调度」的能力,事实是Vidu依然展示了相当不错的水平。

总的来说,虽然有Sora珠玉在前,但从目前公布的生成视频来看,Vidu依然展示了极高的视频生成能力,或者说是模拟物理世界的能力。或许在生成复杂画面、保真度等方面还差Sora,但有一些镜头完全称得上可用,这已经是一个很大的进步。

当然,Sora的反方向跑步,Vidu的「人物」突然长出第三条腿,都说明即便AI在视频生成领域有了跨越性的进步,仍然还有很大的提升空间。

正如OpenAI在 Sora发布之初承认的,这类模型当前存在一定的局限性,比如无法模拟复杂场景的物理效应,理解某些特定因果关系等。

好饭不怕晚:如何制造Vidu?

看起来,Vidu就好像Sora一样横空出世,以相当惊艳的表现引起刷屏,而且同是基于对Transformer与 Diffusion架构的融合。但很多人并不知道,生数科技联合创始人兼CEO唐家渝上个月就透露过:

「今年内一定能达到Sora目前版本的效果。」

不仅如此,这家几乎可以算是从清华大学人工智能研究所「孵化」出来的初创公司,在2022年 9月就提出了融合Diffusion和 Transformer的 U-ViT架构,比OpenAI提出DiT架构(Sora的底层架构)还要早。

甚至因为发布时间更早,计算机视觉顶会CVPR 2023提前收录了清华大学的U-ViT论文,而以「缺乏创新」为由拒绝了OpenAI DiT论文。

但总的来说,这两家公司的思路大体一致。

目前市面上大部分视频生成模型都是基于Diffusion架构的扩散模型,比如Stable Video Diffusion。OpenAI和生数科技则是引入大语言模型底层的Transformer架构,在一定程度上,解决了文生视频一直以来前后一致性和视频长度过短的问题。

所以在Sora和 Vidu生成的视频中,你可以说有很多不完美,但在保证主体和背景一致性上,它们都有了实质性的飞跃,几乎不会看到有人物边走边变形的情况,背景不会时刻在变,场景也不会在没有任何转场的情况下突变。

不过很多人可能还有一个问题:明明更早提出融合架构,生数科技为什么更慢?甚至效果还差一些?

事实上不难理解。要知道,生数科技正式成立于2023年 3月,虽然在不久后获得了阿里、百度、字节等公司和机构的多轮融资,但最多也就融到数亿。相比之下,OpenAI背靠微软,在算力、数据、资金、人才等方面都有着更大的优势。

同时,这也会影响到Sora和 Vidu完全不同的发展路径。

在接受WSJ记者采访时,OpenAI首席技术官Mira Murati公开表示,Sora最快将会在今年年内面向公众推出。考虑到Sora生成视频需要的海量算力,外界估计,可能将有限度地率先开放给ChatGPT Plus用户。

而据唐家渝表示,生数科技目前要走两条路。

一是打造覆盖文本、图像、视频、3D模型等多模态能力的底层通用大模型,面向B 端提供模型服务能力;二是自己面向图像生成、视频生成等场景打造垂类应用,面向游戏制作、影视后期等需求提供订阅制收费服务。

写在最后

Sora刚发布的时候,国内一片惊叹,又是一片哀嚎。

360创始人周鸿祎说,Sora将人类实现AGI(通用人工智能)的时间从10年拉小到了1-2年,同时也进一步拉大了中美在AI领域的差距。还有更多人认为,尽管国内大模型众多,做视频模型的也不少,却看不到一个能够追赶Sora的竞争对手。

而Vidu的发布,至少再次证明了一切皆有可能。但如果说Sora的发布是一个开始,那我相信Vidu不是结束,「甚至不是结束的开始。但这也许是开始的结束。」

注:文/雷科技,文章来源:雷科技(公众号ID:leitech),本文为作者独立观点,不代表亿邦动力立场。

文章来源:雷科技

广告
微信
朋友圈

这么好看,分享一下?

朋友圈 分享
+1
+1
微信好友 朋友圈 新浪微博 QQ空间
关闭
收藏成功
发送
/140 0