广告
加载中

火山引擎:揭秘豆包视频模型背后的“底层升级”

胡镤心 2024/10/22 11:51

【亿邦原创】让一张照片开口说话,让一段思考变成影像,让一个商品自动旋转展示……这些AI视频模型的丰富应用极大拓展了娱乐和营销的边界,让视频生产进入AI时代。

但视频数据的指数级增长,对计算效能提出了严峻考验,也对音视频处理的生产端、交互端和消费端提出了全新要求。

近期,火山引擎视频云基于抖音真实业务与视频技术的深度融合,在视频云技术大会上,发布了大模型训练视频预处理方案,解决视频大模型训练的成本、质量和性能等方面的技术挑战。目前,这套技术方案已应用于豆包视频生成模型。

在视频云技术大会上,我们看到豆包视频生成模型背后的技术框架,看到抖音电商基于视频云探索的AI应用新场景,也看到在技术变革背后,视频行业迎来的星辰大海。

1、释放AI生产力

仓库中还没上架的商品,可以自动拍摄高清素材,一键生成营销主图、讲解视频,一键上传店铺与账号。

直播刚结束,后台就躺着几十条剪辑好的直播切片,同时叠加营销要素,可以直接投放带货。

更有甚者,基于商品图、直播素材、行业知识和模型理解能力,大模型已经开始自己创作商品的短视频剧本,再自动基于剧本,生成风格多样的商品营销短视频。

这些新场景和新应用,已经可以横向复用,实现店铺级的自动化托管服务,并在抖音超市、跨境电商、苹果自营、云奥莱、超值购、秒杀等多个业务铺开。

抖音电商自营电商负责人陈洁透露,以抖音超市为例,使用过程中日均曝光增加500W,点击率增加300%,转化率提升100%,成交规模提升50%,商家效率提升300%。

“优质内容能带来流量,也能带来持续交易。”陈洁表示。

分析用户兴趣,持续创作与用户兴趣相关的商品内容、短视频内容、直播内容,这是商家在抖音电商平台的有效经营方法。但商品丰富性的增加也带来运营成本的快速攀升,内容质量层次不齐,内容更新频率更是难以保障。

基于此,抖音电商自营电商和火山引擎视频云合作,通过大模型的多模态生成能力,在电商产品里构建了多个可规模化应用的电商产品,包括商品营销首图的智能生成、商品多张主图结构内容的智能生成、端到端自动化生产。

前述对仓库内商品自动采集、自动生成营销主图、自动生成讲解视频与展示视频,就是抖音电商自营电商和火山引擎视频云共同研发的、对商品高清采集的自动化硬件设备。

对于商家运营来说,原先复杂费劲的商品素材生产工作,现在只需要坐在电脑面前做二次的确认即可。

“通过AIGC,无论是商品的曝光度、点击率、转化率的过程指标,还是在订单的成交规模以及商家的运营效率,都有非常多的提升。”陈洁认为。

2、AI点燃视频云

在丰富多元的视频生成能力背后,火山引擎在视频云上的进展发挥了基石作用。

视频云指面向视频应用场景的全部公有云和专属云基础设施,视频内容分发网络(含点播带宽),以及在视频云基础设施上部署的视频产品、服务或解决方案。IDC将其划分为“视频直播”、“音视频通信”、“视频点播与媒体处理”、 “媒体生产与媒资管理”等赛道。

近期,在视频云技术大会上,火山引擎发布了大模型训练视频预处理方案,用于解决视频大模型训练的成本、质量和性能等方面的技术挑战。目前,该技术方案已应用于豆包视频生成模型。

这套大模型训练视频预处理方案依托于自研的多媒体处理框架BMF,能有效应对模型训练的算力成本挑战。还在算法和工程方面进行了调优,可以对海量视频数据高质量预处理,短时间内实现处理链路的高效协同,提高模型训练效率。

Bytedance Research负责人李航介绍,豆包视频生成模型PixelDance在训练过程中采用了火山引擎的大模型训练视频预处理方案,充分利用了大量潮汐资源,为模型训练提供了有力支撑。火山引擎视频云团队提供的点播解决方案还为PixelDance生产的视频提供了从编辑、上传、转码、分发、播放的全生命周期一站式服务,让模型的商业化应用有了保障。

据了解,豆包视频生成模型PixelDance于9月24日发布,采用DiT架构,通过高效的DiT融合计算单元和全新设计的扩散模型训练方法,突破了多主体运动的复杂交互、多镜头切换的内容一致性难题,在业界引起广泛关注。目前,豆包视频生成模型已通过火山引擎面向企业开启邀测。

3、AI视频时代的星辰大海

作为视频领域的头号玩家,火山引擎在视频生成上的探索远不止电商营销素材的生成。

亿邦动力注意到,7月还上线了首部AIGC短剧《三星堆:未来启示录》上线,以1.4亿次播放量证明了AI与视频结合的强大吸引力。

9月24日,在深圳AI创新巡展上,火山引擎发布了两款视频生成模型,突破多主体互动难关。

Vision Pro年初提出的空间视频概念在抖音VR直播中得到了完美应用,借助小范围6 Dof技术,实现内容的实时追随和全景直播,为用户带来了实时沉浸式看直播的全新体验。

火山引擎还和山西高平二郎庙金代戏台合作,通过AI生成3D内容和大场景重建方案,为珍贵的历史建筑生成了3D数字资产,并以虚拟直播间的形式应用于抖音的戏曲直播场景。

这些成果背后是生成式AI多模态、大模型、全景直播、三维重建等技术的共同推动。火山引擎CEO谭待认为,本轮技术突破正在将我们从流畅实时高清的数字世界带入更智能、更交互、更沉静的AI世界。这不仅意味着技术的飞跃,更代表着体验方式的一场变革。

视频正迅速崛起为人类的第二语言,视频的表达手段和效果超过文字,也带来内容生产、交互服务的新变革。

在AIGC、多模态等技术的共同推动下,用户体验在多个维度上经历着深刻转变,“基于抖音业务实践和与行业客户共创,火山引擎视频云正积极探索AI大模型与视频技术的深度融合,在技术底座、处理链路和业务增长层面为企业寻找解法。”谭待说。

亿邦持续追踪报道该情报,如想了解更多与本文相关信息,请扫码关注作者微信。

文章来源:亿邦动力

广告
微信
朋友圈

这么好看,分享一下?

朋友圈 分享
+1
+1
微信好友 朋友圈 新浪微博 QQ空间
关闭
收藏成功
发送
/140 0