视频模型鲨疯了：一张图做出广告片三张图生成一部短剧

【亿邦原创】仅需一张照片，就可以一键完成一个属于自己的短视频，这件事不再遥远。

比如来一张马斯克的照片。

你可以让他穿梭在宴会厅；

让他行走在巴黎；

也可以让他和别人相拥在一起。

不只是真人照片，卡通人物也同样适用。

来一张Q弹的猫头鹰图片，可以让它编出各种剧情。

AI视频模型长期受困于帧与帧之间的连贯性问题，在实际创作中，角色、景色、物品的随机生成，给影视、营销等领域的应用带来巨大难题。由于大模型的不可控，不少公司智能通过建资料库+人工+反复生成来解决，让人工智能难以摆脱“人工智障”的帽子。

现在，这一难题被生数科技率先解决。

生数科技成立于2023年 3月，创始人兼CEO唐家渝是清华大学自然语言处理实验室硕士，此前曾任瑞莱智慧副总裁、腾讯优图实验室高级产品经理等。2024年4月，生数科技联合清华大学发布了中国首个原创全自研，长时长、高一致性、高动态性的视频大模型Vidu，被称为“中国版Sora”。7月底已正式上线，全面开放适用。

仅过去一个多月的时间，Vidu又发布“主体参照”（Subject Consistency）功能，能够实现对任意主体的一致性生成，让视频生成更加稳定、可控，目前已在官网免费开放。

经过不少创作者实践，有了这一功能，仅需三张定妆照，就能完成短片创作；基于一张商品图，六个小时完成一支广告片。

生数科技联合创始人兼CEO唐家渝表示， "主体参照"这一全新功能的上线，代表着AI完整叙事的开端，AI视频创作也将迈向更高效、更灵活的阶段。无论是制作短视频、动画作品还是广告片，在叙事的艺术中，一个完整的叙事体系是“主体一致、场景一致、风格一致”等要素的有机结合。

一、改变视频创作的“游戏规则”

大模型的可控性问题一直是应用落地中的头号难题。

在实际的视频创作中，视频内容往往围绕特定的对象展开，可以是角色或特定物体，这些对象在视频中的形象需要保持连续一致。然而现有的视频模型往往难以实现这一点，常常是主体在生成过程中容易崩坏。

尤其在涉及复杂动作和交互的情况下，保持主体的一致性更是一项挑战。

此外，视频模型的输出结果具有较大的随机性，对于镜头运用、光影效果等细节的控制也不够精细。

所以现阶段的视频模型虽然在画面表现力、物理规律、想象力等方面实现了一定程度的突破，但可控性的不足限制了它们在创作连贯、完整视频内容方面的应用。目前，大多数的AI视频内容还是基于独立视频素材的拼接，情节的连贯性不足。

为了解决这一问题，业界曾尝试采用“先AI生图、再图生视频”的方法，通过AI绘图工具如Midjourney生成分镜头画面，先在图片层面保持主体一致，然后再将这些画面转化为视频片段并进行剪辑合成。

但问题在于，AI绘图的一致性并不完美，往往需要通过反复修改和局部重绘来解决。更重要的是，实际的视频制作过程中涉及众多场景和镜头，这种方法在处理多组分镜头的场景时，生图的工作量巨大，能占到全流程的一半以上，且最终的视频内容也会因为过分依赖分镜头画面而缺乏创造性和灵活性。

生数科技提出“主体参照”功能正在彻底改变了这一局面。

所谓“主体参照”，就是允许用户上传任意主体的一张图片，Vidu就能够锁定该主体的形象，通过描述词任意切换场景，输出主体一致的视频。

这个功能不局限于单一对象，而是面向“任意主体”，无论是人物、动物、商品，还是动漫角色、虚构主体，都能确保其在视频生成中的一致性和可控性，这是视频生成领域的一大创新。Vidu也是首个支持该能力的视频大模型。

二、Vidu破局

我们来看看“主体参照”的效果。

输入一张林黛玉的角色照，你可以脑洞大开，让林妹妹干各种天马行空的事情。

你可以让她坐在咖啡馆闲聊；

可以让她站上大学讲台；

也可以让她骑着机车一路狂飙。

除了真实人物，动物和卡通图片也可以实现其在不同环境下、大幅运动状态中细节特征保持一致。

在商品营销中，商品的外观和细节在不同场景中保持高度一致。

比如基于一张沙发的商品图，生成相应的使用场景。

在视频大模型领域，尽管已有如“图生视频”和“角色一致性”等能力，但Vidu的“主体参照”功能在一致性方面实现了质的飞跃。具体对比看：

图生视频（Image to Video）：基于首帧画面的连续生成，无法直接输出目标场景，限制了视频内容的多样性和场景的自由度；

角色一致性（Character to Video）：只限于人物面部特征的一致性，难以保证人物整体形象的稳定；

主体参照（Subject Consistency）：不局限于人物，面向任意主体，其次在人物主体下，可选择保持面部一致，也可选择保持人物整体形象的高度一致，通过输入文字描述灵活输出目标场景；

值得注意的是，Vidu摒弃了传统的分镜头画面生成步骤，通过“上传主体图+输入场景描述词”的方式，直接生成视频素材。

这一创新方法不仅大幅减少了工作量，还打破了分镜头画面对视频内容的限制，让创作者能够基于文本描述，发挥更大的想象力，创造出画面丰富、灵活多变的视频内容。这一突破将为视频创作带来了前所未有的自由度和创新空间。

三、加速故事类、广告类视频创作

“主体参照”功能通过锁定角色或物体的形象，一方面让故事情节更具连贯性，另一方面让创作者能够更自由地探索故事的深度和广度。这一功能也确实得到了众多一线创作者的“高度评价”。

青年导演李宁正在打造中国首部AIGC院线电影《玄宇》，他利用Vidu预创作了一段男主的视频片段，其中所有人物画面仅通过男主近景、中景、远景三张定妆照生成。

李宁在创作分享中提到，之前的AI电影创作过程，采用传统的文生图、图生视频流程，在分镜的连贯上很难掌控，人物的整体造型很难保持一致，前期需要耗费大量的精力去调试图片，同时画面还容易产生镜头光影失控、图像模糊甚至变形等一系列问题，且随着视频篇幅的增加，这些问题被进一步放大。

“主体参照”功能在商业广告片方向展现了强大的潜力。

广告片的一大关键在于要保证多个镜头、不同场景下品牌物形象的一致性。

Vidu“主体参照”功能能够很好的实现，例如，在下面的跑步鞋广告案例中，仅通过一张商品图，便完成了所有视频画面的生成，无论是不同角度、背景，还是动态表现，跑步鞋的形象在整个视频中都保持了高度一致。

生数科技官方介绍到，该视频仅一位人员花费6个小时完成，包含前期策划、素材生成，后期剪辑，其中30段AI视频素材的生成仅花费3个小时，整个流程仅参照一张商品图。传统广告片制作高度依赖线下实拍和后期制作，时间周期长、成本投入大，但现在通过Vidu能够极大地节省广告制作的成本，整个产出流程更加高效，品牌方对新素材的开发也能更加灵活。

生数科技也推出了合作伙伴计划，邀请广告、影视、动漫、游戏等行业的机构加入，共同探索新的视频创作模式。

值得注意的是，生数科技强调，“主体参照”是AI完整叙事的开端。视频模型要达到叙事的完整性，就必须在这些核心元素上实现全面可控。Vidu的“主体参照” 在仅仅是开始，未来，Vidu将继续探索如何精确控制多主体交互、风格统一、多变场景稳定切换等复杂元素，以满足更高层次的叙事需求。

从更长远的视角来看，一旦实现了全面的可控性，视频创作行业将经历一场颠覆性的变革。届时，角色、场景、风格，甚至镜头运用、光影效果等元素，都将转化为可灵活调整的参数。用户只需要动动手指、调调参，就可以完成一部影像作品的创作，而每一个作品的背后，也将是用户基于AI构建出的独特世界观和自我表达。

亿邦持续追踪报道该情报，如想了解更多与本文相关信息，请扫码关注作者微信。

文章来源：亿邦动力

视频模型鲨疯了：一张图做出广告片 三张图生成一部短剧