广告
加载中

视频大模型Vidu全球上线 最快生成、支持动漫、角色一致

王艺 2024/07/31 14:13

经历了三个月的沉潜,有着“国产Sora”之称的视频生成大模型Vidu终于对所有人开放了。

7月30日上午,生数科技发布推文,宣布其视频大模型Vidu(vidu.studio)产品正式上线,面向全球所有用户开放。这是自4月底模型发布以来,生数科技在多模态大模型领域的又一次重磅革新。

今年4月,生数科技发布了视频生成大模型Vidu,支持一键生成长达16秒、分辨率高达1080P的高清视频内容,不仅能够模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点,其演示视频更是惊艳全网,被冠以“中国版Sora”的美称;

而此次Vidu产品的上线,不仅延续了当时展示的高动态性、高逼真度、高一致性等优势,还在上线版本中新增了角色一致性(Character To Video)、动漫风格、文字与特效画面生成等特色能力。更令人惊叹的是,Vidu实现了业界最快的实测推理速度,生成一段4秒的片段只需30秒,属于业内最快水平。

目前Vidu无需申请,用户直接用邮箱注册即可获赠每月80积分,可以直接上手体验。

如果说4月份的模型发布展示了Vidu在视频生成能力上的领先,那么此次的产品上线,就是一次令人惊喜的AI Offering——它展示了Vidu在商业化方面的精心布局,将AI视频生成领域缓慢的产品和商业化进程又整体向前推进了一步。

上线两大新功能:动漫风格、角色一致性

除了文生视频和图生视频的两大基础功能外,Vidu此次上线还带来了两大全新功能:动漫风格和角色一致性。

目前市面上的AI视频生成工具大多聚焦写实风格、电影风格,更多是对现实的描绘,鲜少涉足动漫领域。而Vidu在这次的新产品发布中,新增了动漫风格,将视频生成的应用场景拓展了一个维度。

不仅支持动漫风格的视频生成,针对之前视频生成工具上传动漫图后出现的画面崩坏、动作幅度小的问题,以及生成过程中容易出现的跳变、脱画问题,Vidu还在技术和策略上做了革新,确保了生成动漫风格的一致性和画面的流畅、稳定性,避免了崩坏现象的发生。

同时,在“图生视频”板块中,Vidu还上新了一项功能——角色一致性(Charactor To Video)

在上传图片的过程中,Vidu支持首帧图和角色图两种选择,前者是实现基于首帧画面的连续生成(常见的图生视频功能),后者则是角色一致性生成,用户可上传人像图或者自定义的角色图,然后通过文字描述指定该角色在任意场景中做出任意动作

比如上传一张埃隆·马斯克的照片,通过输入描述词,就可以让这位科技巨头化身宇航员遨游太空,或者变身超级英雄钢铁侠。

角色一致性功能不仅确保了角色形象、面部表情和动作在不同场景中的连贯性,更重要的是,这一功能极大地简化了视频制作流程,用户无需为每个场景单独设计和调整角色形象,节省了大量的制作时间。

此外,角色一致性功能还为用户提供了极大的创作自由度,用户根据自己的需求和想象,进行个性化的视频定制。这其中,“梗图”和“表情包”就是绝佳的应用场景。

除了使用角色一致功能,也可以上传一张图片作为首帧参考图来尝试生成有趣的视频,比如上传一位男士的一张照片,让二次元女孩和金发美女与他拥抱。

更强理解、更美画面、更大动幅

此前,Vidu凭借着对物理世界的真实模拟、丰富的想象力、多镜头语言和超高的时空一致性,被外界赋予了“国产Sora”的称谓。而此次的产品发布,Vidu则交出了一份更加出色的答卷:

首先,在语义理解方面,Vidu 能够准确理解和生成提示词中的词汇,如字母、数字等,并且能够生成文字特效。

除了词汇,对于第一人称、延时摄影等镜头语言,Vidu也能准确理解和表达,用户只需细化提示词,即可大幅提升视频的可控性。

比如,Vidu能够以延时摄影的方式生成一朵正在开放的玫瑰花。

比如,Vidu能够生成第一人称视角的射击游戏,无论运镜流畅度还是换枪动作都非常逼真。

尤其在涉及复杂场景的视频中,Vidu能够将运动主体与场景做较好的分离,将前后景别分离开,可以实现画面中非重点物体的动态较少,画面主体的动态较多的效果。

以这只花丛中的白猫为例,Vidu能够实现花朵小幅度摆动、而猫咪大幅度扭头、回望的动作,有效提升了画面的真实感。

除了对词汇、镜头等超强的语义理解能力,Vidu视频大模型的另一个优势,是“动态幅度大”——也就是说,Vidu对指定动作的理解更加准确,所生成视频的主体运动幅度也更大。

大幅度、精准的动作有助于更好地表现情节和人物情绪。但是动作幅度一旦变大,画面容易崩坏。因此一些视频模型为保证流畅性,会牺牲动幅,而Vidu很好地解决了这一问题。

例如,在一些主体动作幅度较大的场景中,比如女孩举起手臂比心等,Vidu能够保持高流畅、高动态的画面效果。

同时,Vidu视频大模型还能生成电影级质感的画面和影视特效,具有“画面美观性好”的优势。Vidu生成的视频不仅在构图、叙事、光影等方面能达到十分接近电影级的画面标准,而且可以兼容不同的风格——无论是科幻、西部还是浪漫、动画等类型的电影,Vidu都能手到擒来:

而对于一些经典的影片镜头,比如《银翼杀手》中赛博朋克氛围的未来城市夜景,这些经典影片中极具标志性的视觉效果,Vidu也都能模仿和再现。

不止如此,Vidu还能生成影视级的特效画面,如弥漫的烟雾、炫目的炫光效果、爆炸场面等。

在传统的影视制作中,特效的投入往往是一个巨大的数字。而Vidu让创意不再被高昂的制作成本所束缚,直接为影视制作方省下了百万制作费。国内某资深特效总监在使用Vidu后表示:“像一般爆炸特效镜头通常需要花几十万,但Vidu生成的爆炸生成效果已经非常接近影视制作的水准,这是很令人吃惊的。”

实测推理速度业界最快,片段生成仅需30秒

在越来越多厂商入局视频大模型的当下,除了卷画质、卷风格、卷提示词,视频生成速度,也成为了各大厂商角逐的关键一环。

目前,市面上的主流AI视频大模型在生成4秒左右的视频片段时,普遍需要用户等待1-5分钟,甚至更长。例如,Runway最新推出的Gen-3需要1分钟来完成5s的视频生成,而可灵则需要2-3分钟。

然而,Vidu将这一等待时间缩短至仅需30秒,速度比业内最快水平的Gen-3还要再快一倍

我们上传了一张哆啦A梦的照片,发现Vidu用了32秒,帮我们生成了一段哆啦A梦说话的视频,虽然中文字体有错误,但是生成速度、画质和动作连贯性还是值得称赞的。

超快的生成速度和超高的画面稳定性,得益于坚实的技术底座。据悉,Vidu在基础设施层面采用了百度百舸AI异构计算平台,实现大模型开发的“快、稳、省”,带宽有效性95%,千卡混合训练效能达95%,有效训练时长98.8%,助力生数科技在短时间内低成本开发出了效果优异的多模态大模型。

在Sora迟迟不面向普通用户开放、其他厂商要么仅发布演示Demo、要么仅将产品开放给部分用户进行测试的环境下,Vidu此次的全网上线无疑是在视频大模型商业化道路上迈出了领先的一步。视频大模型的产业化落地是一个需要不断打磨和试错的过程,也只有真正开放给广大用户使用的大模型产品,才能在数据的不断积累和实际应用中持续优化、迭代升级。

注:文/王艺,文章来源:甲子发现,本文为作者独立观点,不代表亿邦动力立场。

文章来源:甲子发现

广告
微信
朋友圈

这么好看,分享一下?

朋友圈 分享
+1
+1
微信好友 朋友圈 新浪微博 QQ空间
关闭
收藏成功
发送
/140 0