加载中

数字人战场 百度智能云投下一枚重磅炸弹

数智前线 2024/09/26 13:55

你可能不知道,自己正在接触的是数字人。

许多人对数字人的印象还停留在形象展示阶段。线下大屏上,一个真人形象向大众介绍产品或者互动,体验不佳,表现也略显僵硬,且制作成本高昂。

但过去一年多的时间里,大模型的出现,为数字人产业带去了更多可能性。一些厂商把数字人列为大模型应用落地的前沿阵地,国内的数字人赛道先锋企业产品也在以季为单位加速迭代。

数字人的技术不断升级。一方面,数字人在人像、声音和语言上的表现力一步步在提升。另一方面,数字人的制作成本和门槛在大幅降低,效率快速提高

以百度智能云的曦灵数字人为例,百度集团执行副总裁、百度智能云事业群总裁沈抖介绍,基于百舸和千帆两大业界领先技术的支撑,“客户只需用过去百分之一的成本,分钟级就能轻松创作出属于自己的数字人作品。”

技术进步带来普惠红利,更多企业级场景正解锁数字人。沈抖介绍,目前,曦灵数字人平台已经有形象成熟、种类丰富的各类数字人,覆盖文旅、电商、金融等各大行业场景。越来越多企业利用数字人实现提效增收,收获业务价值。

而随着企业应用数字人的深入,不同企业对数字人的需求模式也在分层,厂商们围绕着数字人产品的商业模式和打法策略也在更新。百度智能云的曦灵数字人团队介绍,今年他们将重点推进公有云平台的数字人调用,而标准化SaaS产品和行业客户的项目签约有望形成良性循环。

01

以季为单位上新,持续降低数字人落地门槛

数字人正在成为大模型落地的最热门场景之一。

去年下半年以来厂商们在加速探索大模型落地行业的路径,数字人被不少厂商视作了先锋场景。进入今年,多家平台厂商展示大模型与垂直行业结合案例时数字人都被列为了重点应用。

国内最早发布大模型并开启行业应用探索的百度,也在这一领域倾注了大量资源。今天举办的百度云智大会上,曦灵数字人迎来4.0升级,这也是这款产品今年以来的第三次发布更新。

这次更新主要围绕着能力提升、制作门槛下降、效率和成本优化三大维度进行。

在能力升级上,沈抖介绍,曦灵4.0解决了传统2D数字人动作僵硬的问题,可以实现人物在不同角度、形体、表情的高度一致,即使是面部微表情也非常逼真、自然。

为此,曦灵团队进行了专项开发,百度智能云数字人产品部总经理张裕翔介绍,他们独创口型匹配算法,使得数字人讲话时口型更契合表达内容。为提升对话互动自然程度,它们引入了聆听态设计,并通过前置小模型在对话间隙智能插入引导词,显著提升了回复的即时性与互动性。

在制作门槛上,曦灵数字人4.0也进一步简化对用户输入素材的要求。以3D数字人为例,现在用户只需输入一段简单的文字描述,就可以快速生成不同妆造、不同行业特色的3D数字人形象和视频。

在制作效率与成本优化层面,数字人的生成时长现在降低到了分钟级水平。行业观察到,6月的那次更新升级,曦灵2D数字人的生成时长就已经从3~7天降到小时级。

而成本层面,企业获得数字人的价格也在下降。6月曦灵数字人更新发布时,将3D超写实数字人的价格门槛从十万级别降到万元水平。今天升级后,3D超写实数字人的价格从万元继续下探,大幅降价至199元,达到业内最低价。这对数字人行业无疑又是一颗重磅炸弹。

业界观察到,今年以来,曦灵数字人以季为单位快速迭代更新,重点围绕着长期困扰数字人行业落地的几大难题展开。本次4.0版本更新也延续了百度曦灵数字人“高可用,高性价比”的核心理念,意在进一步降低数字人的使用门槛与成本。

实际上这也是此前行业的共同发力方向。IDC告诉数智前线,AI数字人技术使用的平民化正成为市场关注的重点,如何通过相关技术降低产品的使用和成本门槛将成为未来竞争的关键因素之一

作为国内数字人赛道里的老玩家,百度智能云的曦灵团队对数字人的理解是要能够替代真人,并在一些领域超过真人。百度智能云数字人产品部总经理张裕翔解释称,只有性能表现上超过真人,数字人才能解锁更多的行业场景,被更广泛地用起来。

他介绍,得益于过去6年,百度在数字人领域持续深耕,积累了海量、高质量数据,目前曦灵数字人在人像、声音和语言能力多个维度,已经能做到真人无法做到的事。

比如,以人像为例,真人依赖当前环境里的灯光、妆造,而基于曦灵数字人平台,在去还原真人时,可以在视频里给形象做一些提升,类似直播的修图瘦脸功能

在声音方面,普通人日常口语表达中有非常多的顿挫和卡顿,但数字人却可以做到流畅自然、语调平稳且有抑扬顿挫感。而在语言表达能力上,数字人的多语言切换能力也突破了真人的能力限制,能轻松解锁多国语言。

“2D数字人能打破真人的时间、空间和能力局限性,替代真人出镜,效果表现全面超越真人,这是接下来在2D数字人领域,大家共同努力的方向。”张裕翔说。

02

企业应用数字人的方式,正在发生变化

经过一年多的发展,大模型技术赋能数字人,也给数字人市场带来了新的可能性。

首先是,随着数字人能力升级,数字人正在解锁更多的应用场景

“在人像和声音之外,大模型给数字人带来的语言能力,帮我们带来了更多可能。”张裕翔所带领的曦灵团队在数字人赛道的落地经验超过五年,观察了上千家企业客户的应用情况。他看到,大模型赋能下,许多原来不可想象的场景里,数字人有了很广泛应用。

典型的是直播场景,大模型能力加持,可以生成数字人的直播脚本,数字人能够基于商品的内容信息实时讲解,也能完成对商品信息的实时问答,同时7x24小时,稳定且高效。又比如多语言能力的加持,数字人可以灵活切换语种,可以一套内容面向全球的媒体和客户发布,给跨境电商、外贸业务增添便利。“一个能力点的突破之后它就能开启更多可能”,张裕翔说。

其次,随着技术进步、可获得门槛的降低,数字人进入到更多行业,不同的企业对数字人能力的需求点出现了分化

“千行百业对数字人技术的应用要求各有不同”,张裕翔他们收到了非常多样化的客户反馈。比如,一位传媒行业人士感兴趣的是,数字人平台能不能高清晰的克隆本人声音,可以输出高清晰的视频;而在教育场景,数字人老师是否能基于学生的学习能力和此前的知识点掌握程度,给出不一样的答案和讲解

这也是在呼唤数字人技术服务商能够系统梳理各项能力,将不同的能力板块解耦,从而适应和满足市场的多样化需求。一些先锋企业也顺应市场,将数字人能力沉淀到开放平台,实现灵活的组件式调用。

以百度智能云的曦灵数字人为例,今年7月,曦灵数字人开放平台上架,将标准化的能力分拆为灵活的组件,供行业用户调用。比如人像的定制克隆、声音定制克隆、对话交互场景、在各个端的渲染能力、数字人视频的制作和直播等能力都能方便被调用。

这一开放平台的能力也受到了市场的热烈欢迎。“上线后,每周都有上百家客户的试用,对于数字人的应用场景也远超预期”,张裕翔认为,这反映出数字人企业级应用市场的多样化蓬勃需求,也意味着企业应用数字人正在逐步深入。

由此,数字人市场的服务模式也随之演进更新。几年前行业里数字人服务以大型定制项目为主,随着数字人技术的规模化复制能力提升,平台们开始将数字人能力沉淀为标准化的SaaS产品。而随着越来越多行业用起来,企业的需求分化,又多了灵活的组件式调用方式。

开箱即用的SaaS平台、高效易集成的组件平台,以及为头部客户量身定制的行业级解决方案,也是目前百度曦灵数字人服务行业客户的三种形态。

“组件式合作更适合行业用户,它们能通过这些易集成的组件,把数字人能力接入到自己的系统和应用里。目前行业主流调用模式以组件式为主,SaaS能够覆盖的场景更偏于通用场景。"张裕翔介绍其中的差别。

他认为,数字人是表现层,进入行业能用好还需要与行业的垂直领域去结合,涉及到行业know-how和深度的场景知识。

比如,在教育场景里,老师在线上课的时候,可能有个数字人入口,哪里不明白了,戳一下,数字人老师能基于知识点和学生的情况,一对一沟通和互动。

要实现这一点,就需要调用数字人开放平台能力,与教育行业的伙伴共建,把数字人能力与企业现有的课程系统和学生管理系统联通起来。这又涉及到产业分工,需要与教育行业的伙伴共建,才能把数字人能力真正在场景里用好。

03

数字人正化身千行百业数字员工

随着数字人能力持续升级,应用门槛持续降低,企业获得数字人服务的方式变得更加灵活,百度智能云的曦灵数字人也加速在更多场景里落地应用。

“原来的数字人项目周期特别长,现在从试用到真正运转起来,一两天就搞定了。企业编程力强一点的话,半天就上手看到效果。”张裕翔观察,许多企业能利用曦灵更方便看清数字人的效果和业务价值

IDC中国研究经理程荫也告诉数智前线,当下,企业对于AI数字人的应用主要出于创新业务和帮助企业提效增收考量。数字人价值最明显的领域在直播带货、数字人客服、虚拟主播等场景,ROI较好测算,其他场景下带来的价值不好测算是技术落地面临的挑战之一。

张裕翔则认为,要更全面看待数字人的价值,ROI指标更偏向用于一些投放和广告营销场景里的数字人效果指标测算,关键要看这项技术在企业里有没有真正被用起来。

目前,在投放和广告营销场景等场景里,百度智能云的曦灵数字人正在扮演导购角色,增强内容的吸引力与互动性,显著加速了营销视频的创作流程和降低成本。生成效率层面,曦灵数字人将传统2.5天的制作周期锐减至0.5天,这为商家赢得了宝贵的市场先机。同时数字人还能大大降低了拍摄成本,在一线城市里,真人演员的单日花费最低也要1500~2000元。

用户上传的素材还能用于批量生成多条视频,平摊到每一条成本变得更低。“一些销售场景,广告素材的生产成本大概降低到了1/3水平。

除了广告营销场景,数字人扮演的数字员工,也在金融行业里有大量落地。数智前线获悉,不少头部银行正在利用百度曦灵数字人入驻营业厅,高效接管许多传统依赖于线下网点营业员的工作任务,极大地提升了业务处理效率与客户体验。线下网点就不用配备更多的网点营业员,算上全国的网点数量,节省的成本数额非常可观。

“银行场景下数字人技术驱动的数字员工运营平台,能真正提供数字员工运营能力,大幅解放员工的精力。”张裕翔说,在这个场景里数字人已经真正被深入用起来了。目前,曦灵数字人在18家头部银行覆盖率达50%,“产品复购率高,很多客户都已经做到三四期甚至五期阶段,每年都在迭代产品”。

也有些场景不适合用ROI测算,典型的有文旅领域。一些地区在利用百度数字人打造的地方历史名人,以生成的IP形式再现,在文旅景点与游客互动,扮演电子导览的角色。但业界认为,不应单纯从数字上来衡量其产生的价值。它能带来更丰富的旅游体验,让历史文化以更加亲近大众、互动性更好的方式得到传承。未来随着数字人能力持续演进,它发挥的作用将进一步呈现和释放。

可以说,随着数字人在越来越多企业级场景里扮演数字员工,算得清ROI和业务价值账的场景越来越多,数字人应用市场也在逐步打开。IDC预计,到2026年中国AI数字人市场规模将达到102.4亿元人民币

市场从起步走向成熟,百度智能云曦灵这样的产品团队已经开始沉淀体系化的打法。

张裕翔介绍,此前公有云产品收入在曦灵数字人的整体营收里比重不高,占大头的是政企头部企业的合作项目,现在,他们开始更加重视公有云上的营收增长

“以前能力都沉淀在项目里的,今年我们要把它全面产品化。能力和技术水平做到领先的,再跟进应用产品的功能场景覆盖。”张裕翔说。

这里面,不同的产品模式,正有望形成良性的联动——过去的项目沉淀积累的收入,正支撑公有云标准化产品的发展,而从公有云发展带来的能力,又能更好推进项目的签约。

04

产业落地先锋如何炼成

目前,百度智能的云曦灵数字人作为大模型落地产业的典型应用场景,已经在文旅、电商、金融等各大行业场景里得到了落地应用,并且应用广度和深度都在往前迈进。这也是百度的大模型技术进入产业现场的缩影

过去一年,大模型正加速从技术变革推进产业变革。数据显示,今年1~8月,国内大模型中标项目数量已经达到2023年全年数量的5倍,中标金额达到去年全年的2倍。这里面头部大模型厂商的角色依然很突出,百度在大模型中标项目数量、中标金额、覆盖行业以及覆盖央国企数量,四个关键指标上排名第一

产业落地的快速推进离不开新一代基础设施的支撑。围绕着大模型的产业落地,百度智能云正在形成全栈的基础设施底座。

算力层面,大模型庞大的训练需求下,需要的集群规模越来越大,如何实现对GPU高效稳定的管理,从而降低大模型的训练和推理成本,备受行业关注。今天的云智大会上,百度智能云推出了百舸4.0版本升级。升级后的百舸,围绕落地大模型全旅程的算力需求,在集群创建、开发实验、模型训练、模型推理四大方面,为企业提供“多、快、稳、省”的AI基础设施。

大模型应用的爆发,离不开便捷、高效的大模型工具链和应用开发平台。为满足企业在大模型产业落地的需求,今天,千帆大模型平台也在模型开发层、模型服务层、应用开发层上全面升级。

升级后的千帆3.0,正进一步降低企业级应用开发门槛,同时提供更丰富的大小模型覆盖更多行业场景,同时提供更完善的大模型工具链,帮助企业实现一站式的大、小模型开发服务。

在今天召开的百度云智大会上,百度集团执行副总裁、百度智能云事业群总裁沈抖对曦灵数字人、智能客服“客悦”和文心快码三款产品进行重磅升级,面向企业,这也是百度基于基础设施上搭建的AI产品样板间,他认为,只有亲自走过用户要走的路,才能设计出更懂用户的产品。

大模型进入千行百业是一个庞大系统工程,围绕着算力基础设施、算法训练和优化、行业场景、数据准备和治理以及落地部署等方方面面的工作,模型厂商和应用企业及模型生态服务企业在持续发力,为产业应用加速。

而本次云智大会的一系列重磅产品升级更新,无疑也是这股浪潮里的一个重要注脚。



文章来源:数智前线

微信
朋友圈

这么好看,分享一下?

朋友圈 分享

APP内打开

+1
+1
微信好友 朋友圈 新浪微博 QQ空间
关闭