广告
加载中

兵马俑跳科目三 又一个大模型应用火了

胡镤心 2024/01/04 13:48

【亿邦原创】2024年第一个工作日,从斗舞开始。兵马俑跳起了科目三,钢铁侠跳起了极乐净土,大模型又一个欢脱应用破圈了。

这些大约10秒左右的视频都不是真人出镜,均由大模型生成。除了效果喜人,一个会跳舞的短视频做起来也很简单。打开通义千问APP,在对话框输入“通义舞王”,直接跳转热舞界面。

跳舞区有10个舞种供选择,分别是:科目三、DJ慢摇、“爱你”、鬼步舞、蒙古舞、秧歌、兔子舞、随心摇摆、极乐净土、西域慢摇。

点击任何一个舞种,进入图片上传界面,需要上传正面站立的全身照,15分钟后就可以生成一张跳舞的10s短视频。

比如亿邦动力上传一张钢铁侠的人偶,15分钟后,就得到一个会跳极乐净土的钢铁侠。

据悉,这一功能背后的算法是阿里通义实验室自研视频生成模型Animate Anyone。

早在11月底,Animate Anyon便在推特、Youtube等海外社交媒体平台爆火,相关视频播放量超1亿,项目在Github上的Star短短数日就超过1万,是近期大模型领域最受欢迎的大模型算法之一。

除了生成效果之外,Animate Anyon的技术路线也被广泛关注。

视频生成是大模型领域最热门的研究方向之一,谷歌、Meta、Runway等国外科技公司都在积极布局,但一直以来,人物形象的视频生成面临诸多技术挑战,例如人物形象一致、动作流畅可控、时序无瑕疵的人物动作视频。

根据公开论文显示,Animate Anyone集成了多项创新技术,引入了ReferenceNet,用于捕捉和保留原图像信息,可高度还原人物、表情及服装细节;此外,该算法使用了高效的Pose Guider姿态引导器 ,保证了动作的精准可控;另外,通过时序生成模块,有效保证视频帧间的连贯流畅性。在相同数据集的测试下,Animate Anyone的性能表现显著优于国内外同类模型。

今年9月,通义千问成国内首批通过备案的大模型,通义千问APP上线后功能持续升级,目前可提供文本对话、语音对话、翻译、PPT大纲助手、小红书文案、视频生成等几十项功能。

文章来源:亿邦动力

广告
微信
朋友圈

这么好看,分享一下?

朋友圈 分享
+1
+1
微信好友 朋友圈 新浪微博 QQ空间
关闭
收藏成功
发送
/140 0