广告
加载中

火山引擎智能3D视频启动商业化 计划落地直播应用

牛慧 2025-12-25 14:50
牛慧 2025/12/25 14:50

邦小白快读

EN
全文速览

火山引擎智能3D视频技术让观众从被动看视频转为主动“走进”空间视角。

1.技术核心是6DoF(六自由度),允许观众在视频中走动、靠近、环绕观察对象,提升沉浸体验。

2.应用场景多样:直播中晃动手机可延长停留时间;点播中自由探索细节如博物馆展品;VR体验如私人Party般真实。

商业化计划明确将逐步落地。

1.2026年在直播场景应用,实现在抖音等平台全方位观看主播舞姿。

2.未来可保存宠物互动视频满足情感需求,通过普通设备体验低成本3D内容。

品牌营销和产品研发可利用空间视频技术适应消费趋势。

1.用户行为观察显示:互动性和沉浸感成新热点,如直播延长用户停留;点播激发分享如评论区讨论细节。

2.品牌渠道建设结合全息通信,在奢侈品或金融服务中建立信任,提供面对面谈单体验。

消费趋势推动产品创新。

1.代表企业火山引擎降低技术门槛,使3D内容更真实,品牌可开发舞蹈或短剧增强吸引力。

2.市场案例包括得物App旋转商品,启示品牌优化定价策略抢占增长市场。

空间视频市场增长带来新机会提示。

1.市场预测2030年规模达千亿美元,覆盖直播、点播、全息通信;应用如体育赛事和远程会诊。

2.商业模式创新:点播内容创作者制作6DoF视频吸引用户探索,合作方式如抖音平台技术支持。

风险提示与技术学习点。

1.正面影响:技术成本下降加速落地,扶持政策如火山引擎压缩带宽降低门槛。

2.可学习点:处理用户需求变化如直播“黄金几秒”延长互动,推广新应用如企业会议沙盘演示。

产品生产和设计需求聚焦空间视频技术。

1.商业机会:全息通信设备制造需求增长,如专业相机系统和全息屏幕;推进数字化启示优化生产流程。

2.生产需求降低:火山引擎单摄像头方案削减设备成本,工厂可开发轻量化设备参与。

数字化和电商启示明显。

1.案例:地质勘探三维模型应用,启示工厂探索电商平台3D展示。

2.机会:规模化市场设备如VR终端生产,结合火山引擎技术启示降低成本提升效率。

行业发展趋势向空间视频技术倾斜。

1.新技术突破:4DGS算法实现毫秒级实时重建;Dynamic GS提升稳定性;空间音频增强沉浸。

2.客户痛点:传统方案带宽高(60Mbps)、延迟大,解决方案被压缩到10Mbps以下。

解决方案覆盖多场景。

1.痛点如动态场景闪烁,由火山引擎几何解耦技术解决。

2.趋势:实时传输多终端播放,服务商可提供云端重建方案抓住医疗或教育机遇。

商业对平台需求和平台最新做法突出空间视频集成。

1.平台需求:用户延长停留互动如直播“黄金几秒”;招商吸引内容创作者使用6DoF工具制作点播内容。

2.最新做法:火山引擎提供技术,平台如抖音可提升用户体验;运营管理需关注风向规避确保稳定性。

风险提示与机会。

1.需求问题:如带宽压缩挑战,平台通过复用现有传输体系规避。

2.机会:全息通信应用扩展至普通设备,平台可合作扶持降低门槛吸引用户。

产业新动向显示空间视频技术加速商业化。

1.新问题:实时动态场景重建挑战,如抖动闪烁;技术突破4DGS入选SIGGRAPH会议。

2.产业动向:2025年全球演进同步,火山引擎实现直播落地启示政策支持。

商业模式和政策启示。

1.模式:全息通信在医疗教育应用,提供临场感;政策法规启示如标准化纳入MPEG提案。

2.代表案例:远程会诊保留微表情,启示研究者探索社会影响如心理治疗优化。

返回默认

声明:快读内容全程由AI生成,请注意甄别信息。如您发现问题,请发送邮件至 run@ebrun.com 。

我是 品牌商 卖家 工厂 服务商 平台商 研究者 帮我再读一遍。

Quick Summary

Volcano Engine's intelligent 3D video technology transforms viewers from passive watchers into active participants who can "step into" a spatial perspective.

1. The core technology is 6DoF (six degrees of freedom), allowing viewers to walk around, approach, and circle objects within the video for a heightened immersive experience.

2. Applications are diverse: shaking the phone during live streams can extend viewing time; freely exploring details like museum exhibits in on-demand videos; VR experiences that feel as real as a private party.

Commercialization plans are clear and will be rolled out progressively.

1. By 2026, the technology will be applied in live streaming, enabling 360-degree viewing of performers' dance moves on platforms like Douyin.

2. In the future, it will be possible to preserve interactive videos with pets for emotional needs and experience low-cost 3D content using standard devices.

Brand marketing and product development can leverage spatial video technology to adapt to consumer trends.

1. User behavior analysis shows interactivity and immersion are emerging hotspots, e.g., live streams extending user dwell time; on-demand content sparking shares and detailed discussions in comments.

2. Brand channel development can integrate holographic communication to build trust in luxury goods or financial services, offering face-to-face negotiation experiences.

Consumer trends are driving product innovation.

1. Leading companies like Volcano Engine are lowering technical barriers, making 3D content more realistic, enabling brands to develop dance or short dramas to enhance appeal.

2. Market examples include the POIZON App's product rotation feature, suggesting brands optimize pricing strategies to capture growth markets.

Spatial video market growth presents new opportunity signals.

1. Market forecasts predict a scale of hundreds of billions USD by 2030, covering live streaming, on-demand, and holographic communication; applications span sports events and remote consultations.

2. Business model innovation: On-demand content creators can produce 6DoF videos to attract user exploration, with collaboration models like technical support from platforms such as Douyin.

Risk alerts and technical learning points.

1. Positive impacts: Falling technology costs accelerate adoption; supportive policies like Volcano Engine's bandwidth compression lower entry barriers.

2. Key learnings: Adapting to changing user demands, like extending the "golden few seconds" of live stream interaction; promoting new applications like sandbox demonstrations for corporate meetings.

Product manufacturing and design needs are focusing on spatial video technology.

1. Commercial opportunities: Growing demand for manufacturing holographic communication equipment, like professional camera systems and holographic screens; digitalization insights suggest optimizing production processes.

2. Reduced production requirements: Volcano Engine's single-camera solution cuts equipment costs, enabling factories to participate by developing lightweight devices.

Digitalization and e-commerce implications are clear.

1. Case study: Application of 3D models in geological surveying suggests factories explore 3D product displays on e-commerce platforms.

2. Opportunity: Mass production of market devices like VR terminals, combined with Volcano Engine's technology, suggests pathways to reduce costs and improve efficiency.

Industry development trends are tilting towards spatial video technology.

1. Technological breakthroughs: The 4DGS algorithm enables real-time reconstruction in milliseconds; Dynamic GS improves stability; spatial audio enhances immersion.

2. Customer pain points: Traditional solutions require high bandwidth (60Mbps) and suffer from high latency; new solutions compress this to under 10Mbps.

Solutions cover multiple scenarios.

1. Pain points like dynamic scene flickering are addressed by Volcano Engine's geometry decoupling technology.

2. Trend: Real-time transmission for multi-terminal playback enables service providers to offer cloud-based reconstruction solutions, capturing opportunities in healthcare or education.

Business demands on platforms and the latest platform practices highlight spatial video integration.

1. Platform needs: Extending user dwell time and interaction, e.g., the "golden few seconds" in live streams; attracting content creators to use 6DoF tools for on-demand content.

2. Latest practices: Volcano Engine provides the technology, enabling platforms like Douyin to enhance user experience; operations management must monitor trends and ensure stability.

Risk alerts and opportunities.

1. Demand challenges: Issues like bandwidth compression are mitigated by platforms reusing existing transmission systems.

2. Opportunity: Expanding holographic communication applications to standard devices allows platforms to collaborate and lower barriers to attract users.

Industry trends indicate accelerated commercialization of spatial video technology.

1. New challenges: Difficulties in real-time dynamic scene reconstruction, e.g., jitter and flickering; breakthroughs like the 4DGS algorithm being selected for SIGGRAPH.

2. Industry动向: Global evolution synchronizing by 2025; Volcano Engine's live streaming implementation suggests policy support implications.

Business model and policy implications.

1. Models: Holographic communication applications in healthcare and education provide a sense of presence; policy implications include standardization efforts like MPEG proposals.

2. Representative case: Remote consultations preserving micro-expressions, suggesting researchers explore societal impacts, such as optimizing psychological therapy.

Disclaimer: The "Quick Summary" content is entirely generated by AI. Please exercise discretion when interpreting the information. For issues or corrections, please email run@ebrun.com .

I am a Brand Seller Factory Service Provider Marketplace Seller Researcher Read it again.

过去十几年,视频技术的核心命题只有一个,如何把画面拍得更清楚、传得更快。但在2025年,一个新的问题开始浮现,如果不再由镜头替我们选择视角,会发生什么?当观众“走进”画面、绕着人物观看,用自己的位置参与叙事,视频是否会从内容,变成一个空间?

在上周举办的火山引擎FORCE原动力大会上,视频云展区给出了一个答案。火山引擎多媒体实验室首次对外公布了一种全新的视频技术形态——智能3D视频的商业化方案。这支团队也正是多项抖音视频技术的源头。据悉,该技术已启动多场景商业化推进,其中包括计划于2026年在直播场景中的实际落地探索。

01从看视频到“走进画面”

展台上,一部手机上一张普通照片已被转换成一张3D照片。我轻轻晃动手机,能看到人物周边更多的街区细节。这让我想起在得物或链家App里看商品和房源的体验,鞋子可以被旋转“端详”,房子也能被立体探索。不同的是,这里的视角以我为中心在移动,而App上那些则以物体为轴心。

展区内,一台普通笔记本电脑上跑着五个Demo,画面里是五位乐手,分别演奏古筝、小提琴和钢琴,看来这群多媒体实验室的小伙伴都很热爱音乐!在我日常观看的2D视频中,比如马克西姆演奏的钢琴神曲《出埃及记》,只能被动地跟着镜头走,看他俊朗的面部表情,手部或有力、或疾速的敲击,背部的起伏,以及周围身着长裙的的小提琴手与舞台灯光的配合。

但在这里,我可以自己“操控视角”。我可以切换到俯视视角,看演奏者手部的流畅动作;也可以从背后观察他在某一乐章中身体的起伏;从侧面或正面,看他与音乐完全沉浸在一起的表情。如果是一个乐团,我还可以随时移到周边乐手身上,看他们的演奏细节。

接着,我戴上一台字节PICO VR。在我面前,一位小提琴手站在客厅中央,演奏着一段悠扬的乐曲。桌上摆着红酒,身后的落地窗外是绿色草坪和罗马柱风格的大理石建筑。我“走”近他,看见拉弓时手指和琴弦之间细微的颤动;又“走”到他左侧不远处,音乐从对应的空间方位传来。这种体验突然让我产生了一种沉浸感,就像是周末正在参加一场私人Party,环境优美,氛围轻松。

实验室的小伙伴告诉我,这些Demo意味着,这套技术已经可以用于制作六自由度(6DoF)视频内容,比如短剧、互动视频。

那么,什么是6DoF视频?

如果你戴过VR设备,可能有过这样的体验,你只能原地转头,看看四周。6DoF则名为“六自由度空间”。有部电影叫《六度空间》,它讲述了人与人之间社会关系的扩展,而6DoF说的是空间的扩展,比如前面的小提琴演奏者,他不仅可以在前后、左右、上下三个方向上移动,还可以有摇头、点头、歪头三类旋转自由度。有了6DoF,我们就可以在空间里“走动”、“靠近”、“绕着观察”。

这会带来非常新奇的内容形态。比如在悬疑短剧中,观众可以“置身其中”,如果你怀疑某人是凶手,可以从不同角度反复观察他的动作与表情;看到弹幕里有人提到某个细节,也可以立刻回应“你是从哪个角度看到的”。

还有一类是情感层面的需求。我们可以把家里的宠物制作成6DoF视频保存下来,甚至结合大语言模型做互动。当宠物有一天不得不离开我们,我们可以随时拿出来观看。也许在未来,随着技术进一步进步,我们还能“抚摸”它。

在展区的另一侧,是全息通信与实时空间视频的演示。一位多媒体实验室的小伙伴坐在一块白色屏幕前,面前摆放着5台相机。这并不是普通相机,它们通过有线将传感器连接,形成一组同步相机系统。当然,如果需要360度拍摄,实验室的轻量化技术仅需12台相机就能完成全域覆盖。

小伙伴冲着镜头打招呼,示意我们看不远处一个全息屏幕,他的动作已经实时展示在全息屏幕上。这背后是一系列“动作”:专业相机实时采集画面,传输给一台普通笔记本电脑,在这里上传云端,在云端实时重建,快速构建出这个立体场景,并通过CDN下发到观众的终端,实时渲染,实现观众从任意角度观看。

现场的全息屏幕像一台苹果显示器大小。当这个全息屏幕做到1:1尺寸时,这套技术将接近真实的“面对面交流”,它有望在远程会诊、异地探视等场景中,带来前所未有的临场感。

02“空间视频”在探索各类应用

火山引擎多媒体实验室的这些技术成果,本质上都在解决前沿视频技术长期存在的三大难题,技术成熟度、制作与算力成本,以及工程化落地能力。它们的目标不是停留在论文或Demo,而是让空间视频真正进入可规模应用的现实场景。

实际上,2025年正成为空间视频与全息通信加速落地的时间点。海外厂商中,谷歌动作尤为明显,其早些年已成立独立产品线Google Beam,押注新一代视频方向,今年将其接入谷歌会议系统,联合惠普推出专用设备,率先切入跨国会议场景。苹果则在端侧实现基于单目视觉的6DoF能力,但目前该能力主要适用于静态场景。

火山引擎多媒体实验室则跑通了空间视频直播场景,并实现了仅依赖一个或少数普通摄像头生成自由视角6DoF视频的能力,具备大众化应用条件。可以说,全球视频技术的演进正发生在同一节奏点上。

近年来,空间视频已零星出现在体育赛事、游戏和文化内容中,如世界杯转播、唐宫夜宴3D空间视频等。其商业潜力早已被看到,但此前受限于技术不成熟与高昂成本,未能规模化落地。随着算法、工程化和硬件成本的快速下降,市场机构预测,到2030年,空间视频相关市场规模有望达到千亿美元量级,覆盖直播、点播和全息通信等多个方向。

在直播场景中——直播竞争的关键在用户进入直播间后的“黄金几秒”,空间视频让观众可以晃动手机、“走进”直播间,自然延长了停留时长与互动深度。

在抖音秀场直播中,粉丝也不再受限于扁平的画面,能全方位捕捉主播的灵动舞姿与细腻神情,获得如同面对面互动的沉浸式陪伴。

在点播场景中——这里的“点播”,不是观众点播影片,而是内容创作者创作自由视角内容。当内容创作者制作了6DoF的博物馆内容,观众就可以按自己的节奏探索空间,有人沿路线参观,有人贴近展柜看细节,有人会在评论区互动,“这件青铜器内的铭文从哪个角度能看到?”这些会激发分享和二次传播。

在2D内容高度同质化的当下,随着AI眼镜和VR设备逐步普及,市场迫切需要更具新鲜感和互动性的3D内容。更重要的是,当创作者以更低成本拍真人内容,替代过去略显生硬的纯数字人,使舞蹈、悬疑短剧、沉浸式密室逃脱等内容的真实感大幅提升,你会体验到舞蹈的美感、旅馆中“女鬼”的惊吓感,尤其适合演唱会等OGC以及娱乐、媒体类PGC内容。

在全息通信场景中——空间视频让远程交流重新回到“面对面”。在一些演示中,1:1的全息屏幕让远端的古筝老师仿佛走出画框,与学生直接互动。

这种体验为远程会诊、特殊教育、企业会议和高价值客户服务提供了新的可能。比如在企业协作中,参会者展示的是悬浮的全息沙盘,远端专家能共同查看三维模型并进行标注,这在地质勘探领域已经发生。在心理或医疗场景下,全息通信既保留真实的微表情和肢体反馈,又降低患者的心理压力;在金融、保险和奢侈品服务中,它更接近一次线下面谈,有助于建立信任。

全息通信从高端场景起步。目前火山引擎方案实现了消费级带宽(<10mbps),高清晰度高保真,采集成本/整体设备成本实现大幅度下降。随着设备和带宽门槛持续降低,这类应用也正从少数高端场景,走向更广泛的商业领域。

03空间视频如何实时“跑起来”

火山引擎多媒体实验室的这套技术,最早是为点播场景服务,比如春晚或体育赛事大型舞台的“子弹时间”,画面定格在某一瞬间,观众可以360度观看。团队进一步思考,既然能把一个瞬间做成3D,能不能把每一个瞬间都做成3D,让观众来选择视角?于是逐步演化出了现在的空间视频技术。

而这些的背后是一整套技术链路与工程化能力的突破。火山引擎多媒体实验室团队投入近五年,在采集层、传输层和呈现层三个关键节点实现系统性突破。

在采集层——

4DGS(四维高斯泼溅)是动态场景重建与渲染的核心算法。相较3D,它多了时间维度,用大量带有位置、大小、颜色和透明度等属性的“高斯点”,通过叠加方式构建起会随时间变化的三维场景。这种方式有点像张大千山水画中的“泼彩”,将颜料“泼”“染”到画布上,自然扩散叠加,形成山水画面,而不是勾勒成形。

高斯泼溅是当前发展极快的方向,但传统方案通常依赖数十分钟的离线优化,难以应对实时场景。火山引擎视频云结合大模型技术,将人体动态重建加速到毫秒级,在A10显卡上实现了30fps以上的实时4DGS重建,成为业内首个支持实时4DGS直播的方案。

动态场景的另一大难点是长时序稳定性。传统方法在长时间播放时容易出现人物轮廓抖动、画面闪烁等问题。实验室的Dynamic GS技术,提出“进化式(Evolving)”3D高斯重建框架,使高斯点随场景变化自适应地生长、分裂与消亡,提升稳定性。同时,通过几何与外观解耦,人物不再被拍摄时的灯光“锁死”,能在虚拟环境中重新打光,生成更加逼真的光影效果。

在攻克专业设备的高质量重建方案后,火山引擎视频云进一步挑战普适性场景,用单目摄像头生成自由视角。

团队首创了变形场高斯,解决“只用一台普通摄像头拍动态场景,如何重建清晰三维世界”的行业难题。传统NeRF方法依赖从2D画面逆向推断三维结构,构建的动态场景容易模糊失真;而变形场高斯采用“前向映射”,直接在三维空间中建模物体如何运动,再投影到画面,在权威数据集上实现了10+的PSNR提升。

团队还引入生成式大模型技术,并与抖音团队合作,行业首发“空间视频直播”,只用一个摄像头拍摄内容,也能生成可前后左右走动、自由观看的6DoF视频空间。这样,空间视频从昂贵、专业的拍摄工程,变成普通创作者可用的表达工具,也让“全息通话”首次具备大众化落地条件。

在传输层——

在重建之后,还要解决传输问题。高斯数据天然不适合网络传输,实验室将其转化为标准视频流,直接复用现有视频传输与解码体系。通过压缩技术,空间视频的传输带宽被压缩到10Mbps以下,而部分同类方案仍需要60Mbps以上,且已实现PC、VR、手机等多终端播放。

这其中的核心在于基于渲染重要性的低损耗压缩策略。高斯点数量庞大、属性复杂,研发人员通过深度学习感知哪些区域对视觉最关键,对核心区域重点采样,在保证画质的同时大幅减少点数。这样,在最高500倍压缩率下,画质损失极低(PSNR<3dB)。

具体实现上,一类方法将高斯点按规则投影到2D平面,生成可压缩的视频序列;另一类方法对三维空间进行切片,将不同空间块和属性映射为规则视频流。两条路线的共同点是,最大化复用成熟的视频软硬件能力。

在呈现层——

在呈现层,空间音频与空间视频的融合进一步提升沉浸体验。音频是构成“声画一体”6DoF体验的关键要素,在技术上,空间音频基于头相关传输函数(HRTF)与房间声学建模,让声音像现实世界一样具备方向、距离与空间感,画面与声音的位置始终对齐。用户转身看向说话的人,声音自然从对应方向传来;向前靠近,声音变得清晰;被物体遮挡时,声音也随之减弱。延迟极低,形成高度真实的临场感。

这些技术突破已获得国际学术界广泛认可。如4D GS研究成果入选SIGGRAPH 2025 Emerging Technologies;Dynamic GS相关工作连续被CVPR、SIGGRAPH等顶级会议收录。4DGS压缩算法相关技术已形成9篇国际标准化组织MPEG技术提案,其中4篇纳入MPEG探索模型或核心实验。

压缩、传输与呈现能力的突破,使6DoF空间视频真正具备了实时分发和规模化部署条件,也让它从实验室走向可落地的产品形态。目前,全息通信已提供全套解决方案,点播和直播已对外提供关键点技术展示。

对火山引擎而言,空间视频并不是一次炫技式发布,而是在为下一代视频基础设施铺路。当采集不用依赖昂贵设备,传输不需要专线网络,呈现也能在手机等普通终端完成,空间视频将逐步具备进入规模化市场。

注:文/牛慧,文章来源:数智前线,本文为作者独立观点,不代表亿邦动力立场。

文章来源:数智前线

广告
微信
朋友圈

这么好看,分享一下?

朋友圈 分享

APP内打开

+1
+1
微信好友 朋友圈 新浪微博 QQ空间
关闭
收藏成功
发送
/140 0