加载中

昆仑万维:“最懂表演”的视频大模型来了

赵健 2025/02/18 14:33

做通用场景还是垂直场景,这是AI大模型最基本的选择题。

现在市面上的视频大模型基本都是通用模型,可以根据提示词生成任意场景的视频。但也有一些视频大模型从离应用场景更近的垂直领域切入,比如字节跳动近期发布Goku,聚焦在数字人直播带货。

而今天昆仑万维刚刚发布的SkyReels-V1,则是中国首个面向AI短剧创作的视频生成大模型。昆仑万维在去年12月上线AI短剧平台SkyReels,SkyReels-V1将为该平台提供大模型能力。

根据「甲子光年」的实际观察和体验,不夸张的说,SkyReels-V1是市面上“最懂表演”的视频大模型,在人物微表情、动作细节、场景、画面构图、运镜等影视级要求的表现效果上独树一帜,能够生成媲美“影帝影后级别”的表演镜头。

与SkyReels-V1一同发布的还有SkyReels-A1,是昆仑万维自研的首个SOTA级别的基于视频基座模型的表情动作可控算法。

更为重要的是,SkyReels-V1与SkyReels-A1都是开源模型,任何用户都可以按照开源协议下载使用。

如果说DeepSeek R1是给文本大模型,尤其是推理模型树立了开源模型新标杆,那么昆仑万维的SkyReels-V1和SkyReels-A1就是在蓬勃发展的AI短剧市场树立了开源模型新标杆。在SkyReels-V1和SkyReels-A1的加持下,AI短剧市场有望迎来DeepSeek时刻。

1.“最懂表演”的视频大模型


SkyReels-V1是受益于开源社区并回馈开源社区的大模型,它是在腾讯去年12月开源的混元视频大模型HunYuan-Video的基础上训练而来。

开源模型虽然在通用任务上表现出色,但并非拿来即用,尤其是在特定领域或细分任务上的表现可能无法达到最佳效果。因此,模型厂商在实际的模型训练中还涉及大量的微调、推理优化、安全对齐等相关工作。

目前AI短剧市场中的视频大模型普遍存在一些不足,最典型的就是人物生成表情空洞,甚至宛如智障。昆仑万维希望突破这些痛点。

模型训练是让大模型学会知识与能力的核心环节。在训练过程中,昆仑万维需要教会SkyReels-V1“如何学会表演”。这其中最核心的技术贡献有两点:

首先是数据清洗与标注,这是模型微调的关键所在。就像教师教学时需要用到的教材一样,昆仑万维基于自研的高质量数据清洗和人工标注管线,构建了千万级的高质量电影、电视剧、纪录片数据,这是模型要学习的“教材”。

但光有“教材”还不够,还要对模型做进一步的指导。为此,昆仑万维自研了Human-Centric(以人物为中心的)视频理解多模态大模型,大幅提升视频中人物相关的理解能力。

这套基于视频理解多模态大模型所构建的人物智能解析系统,在影视化的表情识别、人物空间位置感知、行为意图理解、表演场景理解等不同层次的表演上,都能达到“影帝级别”的人物表演。

什么是“影帝级别”?

比如,SkyReels-V1可以生成影视级人物微表情表演,支持33种细腻人物表情与400+种自然动作组合,高度还原真人情感表达。

再比如,SkyReels-V1还学会了电影级光影美学。基于好莱坞级的高质量影视数据训练,生成的每一帧画面,在构图、演员站位、相机角度等都具备电影级的质感。


尽管SkyReels-V1是一个开源模型,但却有媲美海螺AI、可灵AI等闭源模型的效果。给出同样的提示词,SkyReels-V1、海螺AI、可灵AI的生成效果分别如下:

提示词:一张棕色头发女性的照片,华丽的红色染色眼镜和深红色口红。她朝着前方挥了挥手,先是微笑,然后大笑。


提示词:戏剧性的正面特写镜头揭示了一位深海潜水员戴着老式铜制潜水头盔的面容。头盔厚厚的圆形玻璃提供了清晰视野,可以看到他平静的表情。微小的气泡在头盔内向上飘浮,水滴附着在内壁上。他小心翼翼地捧着一本敞开的书,书页在海底水流中轻轻飘动。这本书看起来干燥完好,与周围的水环境形成鲜明对比。柔和的阳光束穿透水面,照亮了他的脸庞,并在书页上洒下金色光芒。鱼儿在周围游动,颜色因深度而变得柔和,但在蓝绿色背景前依然生动。潜水员专注地阅读着文本,尽管身处水下,却完全沉浸在阅读中。文学与海洋深处的超现实结合营造出梦幻般的氛围,突出了在最意想不到的地方追求知识的追求。

从实际效果不难发现,无论是在画面清晰度与人物表演方面,SkyReels-V1都有媲美闭源模型的能力。甚至在一些细节处理效果上(例如头发丝的动态)要比闭源模型更强。


SkyReels-V1文生视频指标对比(来源:昆仑万维SkyReels)

此外,SkyReels-V1不仅支持文生视频,也支持图生视频的能力,是开源模型中最大的支持图生视频的模型。

我们将春节档最热电影《哪吒之魔童闹海》中深入人心的土拨鼠剧照发给SkyReels-V1,并给定提示词:土拨鼠抬起头停顿了一秒,然后大吼大叫。生成的效果让人惊艳:


可以说,SkyReels-V1就是当前市场上最懂表演的视频大模型。

2.自研推理框架

做人人用得起的开源模型


更为难得的是,SkyReels-V1作为一款开源模型,不但在生成效果层面实现了大幅突破,而且有非常高的推理效率。这来源于昆仑万维自研的推理框架SkyReels-Infer。

自研推理框架有什么意义?

通常来说,开源模型不会针对推理框架做优化,尤其是在大规模应用场景中。但如果不针对推理框架做优化,无论是推理效率还是推理成本,对于用户体验来说都并不友好。

最典型的案例是,2024年初OpenAI刚发布Sora时,有用户爆料Sora生成一分钟视频需要一小时,这也是Sora在发布后时隔近一年才正式上线的重要原因之一。时至今日,仍然有很多视频大模型存在排队等待时间过长的问题。

但昆仑万维的自研推理框架SkyReels-Infer不仅保持了高性能,还特别注重效率和易用性。

SkyReels-Infer的推理速度之快,堪称一绝。在单台RTX4090显卡上生成一个544P分辨率的视频,仅需80秒。你可能走了个神,或者看了一眼手机,视频就完成了。

SkyReels-Infer支持分布式多卡并行计算。这是一项非常强大的技术。简单来说,就是可以让多张显卡一起协同工作,共同完成视频生成任务。

通过Context Parallel(上下文并行)、CFG Parallel(分类器自由引导并行)和VAE Parallel(变分自编码器并行)等技术,这些显卡能够像一个团队一样,各自分工合作,从而进一步提升处理速度。这种技术特别适合需要大规模计算的场景,比如制作复杂的动画、特效视频等。

SkyReels-Infer在低显存优化方面也表现出色。它采用了 fp8 量化和参数级卸载技术,这使得即使显存较小的普通显卡也能流畅运行。

显存是显卡的一个重要参数,它决定了显卡能够同时处理的数据量。以往,很多视频生成模型对显存要求较高,普通用户可能因为显卡性能不足而无法使用。但SkyReels-Infer的低显存优化改变了这一现状。换句话说,用户不再需要购买高端显卡,也能轻松使用视频生成模型。这大大降低了使用门槛,让更多人能够享受到AI视频生成的乐趣。

最后,SkyReels-Infer基于开源的Diffuser库开发。Diffuser库是一个非常优秀的开源库,它提供了许多强大的功能和工具。SkyReels-Infer基于这个库开发,继承了它的优点。对于开发者来说,这意味着他们可以快速上手,轻松地将SkyReels-Infer集成到自己的项目中。

具体表现如何?昆仑万维用SkyReels-Infer推理框架版本的SkyReels-V1与腾讯官方开源版的HunYuan-Video做了一次性能测试对比。测试结果显示,SkyReels-V1在生成544p视频时,速度比HunYuan-Video速度更快,延迟更低。

不仅如此,SkyReels-V1支持多卡部署策略,可以同时使用8张显卡来加速任务,而且同时支持A800这样的高端显卡以及RTX4090这样的普通显卡,同时满足了专业用户与普通用户的需求。


借助SkyReels-Infer的能力,昆仑万维进一步降低了视频大模型的推理成本和使用体验,真正实现了人人都能用得起、用得好的AI视频模型。AI短剧市场的发展也必然会被推向新一波高潮。

3.算法开源,业内最优的“AI换脸”玩法


值得一提的是,在训练、推理环节之后,为了实现更加精准可控的人物视频生成,昆仑万维还进一步开源了基于视频基座模型的表情动作可控算法SkyReels-A1。

SkyReels-A1是一个在训练、推理底层技术之上的应用层算法,对标Runway的Act-One,能够实现电影级别的表情捕捉。

Runway的Act-One与昆仑万维的SkyReels-A1的基本玩法就是“AI换脸”:准备一张人物A的照片和人物B的视频,然后将人物B的表情、动作、台词等直接移植到人物A上。

在ID Similarity(身份相似度)、Image Quality(图像质量)、Expression(表情)和Pose(姿势)等表现效果上,SkyReels-A1相比于业内同类型的开源算法取得了SOTA(State of the Art,最前沿)级别的效果,同时与闭源的Act-One接近,且生成质量更好。


当然,数值上的对比显然不如视频画面来的直观。我们依然用视频说话。

首先,SkyReels-A1可以实现视频驱动的电影级表情捕捉,相比Runway Act-One实现了更大幅度的人物表情驱动。


其次是高保真微表情还原。SkyReels-A1能够基于任意人体比例(包括肖像、半身及全身构图)生成高度逼真的人物动态视频。这种真实感来自于对人物表情变化和情绪的精准模拟、皮肤肌理、身体动作跟随等多维度细节的深度还原。

比如侧脸的表情控制生成:


以及更加逼真的眉眼微表情生成:


除了微表情,对于不少视频生成模型都容易出错的人脸保持和大幅动作处理上,SkyReels-A1也比Runway Act-One更加出色。

例如下面这个案例中,最右边的人物有明显变样失真,和原始人物形象不一致。


SkyReels-A1还可以实现更大幅度的头部和自然身体动作。在下面这个案例中,最右边的身体几乎没有任何运动。


从实际效果不难发现,SkyReels-A1这套算法通过简化传统复杂的视频制作流程,为创作者提供了高效、灵活且低成本的解决方案,适用于多种创意内容的制作。

4.AI短剧市场的DeepSeek时刻


SkyReels-V1与SkyReels-A1的开源只是昆仑万维视频大模型开源计划的第一步。未来,昆仑万维还会继续开源相关技术,包括专业级运镜控制版本、720P分辨率的模型参数、更大规模训练数据集训练的模型参数、支持全身可控生成的视频生成算法等等。

事实上,开源一直都是昆仑万维的基因。要知道,昆仑万维董事长兼CEO方汉拥有30年的互联网从业经验,是中文Linux奠基人、中文Linux四剑客之一、国内最早的网络安全专家。方汉自1994年开始参与和倡导开源运动,属于互联网领域很早就倡导开源的人士。

方汉曾表示,开源大模型是商业闭源大模型的一个有力补充和替代,希望通过开源促进技术民主化、降低行业门槛。

早在2022年12月,昆仑万维就发布了「昆仑天工」AIGC全系列算法与模型,并宣布模型开源。昆仑万维不仅是国内AIGC领域布局最为全面的公司之一,也是国内第一个全身心投入到AIGC开源社区的公司。

在过去三年中,昆仑万维陆续发布天工系列大模型并开源。2024年4月发布并同步开源的天工大模型3.0是一个4000亿参数的MoE超级模型,性能超同期的Grok1.0。去年6月,昆仑万维又开源2千亿稀疏大模型天工MoE,是首个支持用单台 4090 服务器推理的开源千亿MoE大模型;11月,开源了Skywork-o1-Open等模型。

昆仑万维秉承开源技术信仰,为全行业实现AGI梦想而努力。

昆仑万维从2020年开始进入AI领域,目前已经完成了“算力基础设施——大模型算法——AI应用”的全产业链布局,并构建了多元化的AI业务矩阵。

其中,AI短剧就是其多元化AI矩阵应用的一个细分领域。

AI短剧是一个新兴市场,在2025年呈现出高速增长态势。根据TikTok for Business发布的《2024短剧出海营销白皮书》,预计未来海外月均短剧用户规模将达到2-3亿,市场规模有望达到100亿美元,仍存在高增长潜力。

昆仑万维于2024年12月在美国上线Skyreels AI短剧平台,这标志着昆仑万维在全球AI娱乐市场的进一步扩张,同时也将为北美观众带来全新的智能短剧体验。SkyReels AI短剧平台不仅为专业内容创作者提供了强大的创作工具,更极大地降低了AI短剧创作的门槛,使得非专业用户也能轻松上手。

AI对全球的影视产业究竟意味着什么?

方汉在2024世界人工智能大会上演讲时提到,AI在海外尤其是小语种国家存在巨大红利。

以影视剧举例,在尼日利亚制作一部电影的成本大约为2万美金,拍出来的作品与国内花3亿人民币制作的《流浪地球》、美国花几亿美金制作的《阿凡达》相比,完全没有竞争力。但是AI出现后,把这个差距拉平了。

“个人预测3-5年之后,制作一部《流浪地球》级别的大片,依靠AI之后,制作成本可能会降到几万美金,这样导致在海外很多地区存在非常大的红利,所有人都希望看到本土的文化产品,不管小说、音乐、视频还是漫画,都需要本土化的产品,所以AI出海存在巨大的红利。”方汉表示。

往小了说,AI带来的红利是让文化产品制作的成本实现指数级降低,让“一人一剧”的时代成为现实。往大了说,通过降低创作门槛,AIGC使弱势文化群体能自主生产内容,将带来全球文化平权,这是科技向善最生动的注脚。

大家说AI带来了“iPhone时刻”,但方汉认为AI是类似于手机摄像头的革命,因为摄像头带来拍摄方式的革命,从而催生出抖音、快手这样巨量的短视频平台,AI会催生大量的新的AI UGC平台,这是一个个性化生产与消费内容的黄金时代。

在「甲子光年」看来,昆仑万维所发布的首个面向AI短剧创作的开源视频生成模型SkyReels-V1,以及首个SOTA级别的基于视频基座模型的表情动作可控算法SkyReels-A1,正是推动AIGC时代来临的最普惠的工具。

AI短剧市场有望迎来“DeepSeek时刻”。

文章来源:甲子光年

微信
朋友圈

这么好看,分享一下?

朋友圈 分享

APP内打开

+1
+1
微信好友 朋友圈 新浪微博 QQ空间
关闭