【亿邦原创】9月13日消息,在2024电子商务大会上,智京未来创始人兼CEO王智武发表了题为《超写实虚拟数字人,拓展直播电商新场景》的演讲。他指出,随着技术服务成本的降低,虚拟人和数字人在直播电商中有着强大的应用潜力。其在声音、外形等方面的复刻技术日渐成熟,并且能够实时生成语音和文字。通过搭建数字人多矩阵直播间、XR虚实融合直播系统等等,能够为产品营销制造话题声量,实现全天候消费者服务,赋能品牌突围。
温馨提示:本文为速记初审稿,在不影响原意的基础上,由亿邦动力编辑整理。
以下为演讲实录:
很荣幸,今天作为数字人企业跟大家分享我们在虚拟人AI产品方面的一些应用场景。我今天分享的主题叫《超写实虚拟数字人,拓展直播电商新场景》。
我先介绍一下我们这个团队,我自己本人从事虚拟人这个行业非常久了,从2016年开始做这个行业,到目前为止将近有十年的时间。我们当时算是国内最早一批做虚拟人的团队,做了虚拟偶像,打造了二次元风格的虚拟人,做各种各样的尝试,是希望它能出圈。
但是大家知道,2016年那个时候还很早。如果用虚拟人来进行直播带货,用虚拟人来进行实时的交互,基本上非常难。所以2016年到2019年,我们做了大量的技术尝试。但是也等来了我们的春天——大模型、AI电商、短视频,各种各样的因素加到一块儿,让AI虚拟人变成了当下的一个非常火热的话题。
我觉得我们团队有几个比较擅长的地方:第一,我们有非常强的美术团队。我们内部团队的同学对于整个AI画面的把控能力比较强。所以我们做出来的虚拟人,不管是3D还是2.5D,卡通的还是二次元的、美型的,我们希望它的整个的美术质量是高的。我们还有一个不错的研发团队,有各种各样的产品。还包括我们的运营团队。除了做直播电商的数字人之外,我们还有虚拟偶像。
01
零门槛,大平台
AI“小模型”玩转虚拟数字人声画复刻
我一直在我们内部,包括跟很多朋友交流的时候经常说的一句话,就是你想要让任何一件事情出圈,必须要降低成本。让你的成本低、门槛低,就可以让大家去使用你的产品。如果你的门槛非常高,其实这个事情就很难推下去。所以,我们推出了首个零门槛的虚拟超写实虚拟数字人的直播平台。
讲直播之前,我先讲讲技术,讲讲短视频的部分,因为短视频和直播是相辅相成的。我们的平台可以进行大量的虚拟人复刻,像声音复刻、外形复刻、唇形动作等,里面包含的技术因素比较多。
在我们推出的平台里面,可以复刻的主要是2.5D的形象。怎么去定义2.5D呢?就好比今天有这么一个场合,通过拍摄一段真人视频,我们就可以进行复刻了。在这里,我简单地科普两个概念。第一个概念是2.5D的数字人,也是我今天的重点,就是跟真人长得一模一样,几乎看不出真假来。大家看完之后问:“哇,这是不是真人?”其实这就是数字人的一种形态。
第二种叫3D虚拟人,是通过3D建模给它进行复刻,通过扫描或手动建模等各种技术加工而成。针对这种数字人,我们希望通过加入几个元素来构建。其中一个部分就是刚刚前面介绍到的平台。第二个部分是加入AI,也就是加入我们自己的大模型。
为了更好地为客户提供服务,我们决定自行训练自己的大模型。很多人问我一个问题:“现在国内外已经有很多大模型了,为什么坚持训练自己的大模型呢?”我们其实就是出于一件事情:为客户提供私有化。因为如果数据传输需要通过网络,在数据量比较大的情况下就会有延迟。另一个问题是,如果不使用自己的大模型,在进行调优的时候就可能会有些问题,比如数据泄露等。
为了在特定领域获得更出色的表现,我们必须使用自己的模型,我们称之为“小模型”。它不需要AGI,也不需要全通用。它不需要知道天气如何,也不需要了解穿搭情况,它只需要在直播电商领域中进行问答即可。
AI的内容部分是我们团队一直在追求和拓展的。我们希望支持客户进行内容创作,包括平台、硬件、运营陪跑等,这些都是我们整个平台体系内服务的项目。
接下来我会展示一组动图,让大家看看这些数字人是否很像真人。首先,这些数字人其实不存在,所以不存在侵权问题。第二,她们看起来非常像真人。第三,大家可以注意到她们的颜值非常高。
我们团队用数百万张图片数据进行学习,可以随机生成任何想要的数字人形象。
在处理声音部分时,我们团队通过克隆真人说几句话而达到了更好的效果表现。因此,在声音方面,我们可能只需要十几秒就可以复刻一句话。如果未来大家想要复刻自己的声音和形象,只需要一段视频和一段音频,我们就可以一比一地复刻,在我们的平台上快速地生成。我们还可以实现自动转译多语言口播,不是通过后期的软件处理,而是实时进行翻译,就可以得到任何想要的声音。
我们的虚拟人还可以进行实时互动,问他任何问题都可以。未来我们可以应用在陪伴助手方面,装在手机或者平板里都可以。此外还可以让图片开口说话等等。
02
多矩阵,新视界
虚拟数字人打开电商直播“瞬息全宇宙”
前面讲到的部分是好玩的技术,后面主要讲讲我们在直播里面的应用。
在我们的平台里面,可以进行实时的互动语音或自动回复,输入任何的关键词都可以触发。我们可以与直播间里的数字人主动打招呼,不像以前人们进直播间还需要一个助播引导。并且,我们虚拟数字人的直播间的背景是多元化的。想要使用任何的素材贴片和背景可以直接替换。
今天要重点分享的一个东西,也是我们团队这段时间一直在尝试做的一件事情,就是数字人的多矩阵账号。这是目前我们服务的一些中小商家的“心头菜”,他们很喜欢。为什么呢?
大家知道,数字人最大的优点是不会下播。他可以24小时直播,可以进行AI回复,可以处理很多人没有时间处理的事情。如果在有多个账号开播的情况下,这个商家的出货率明显要高出很多。
刚刚我们的主持人在分享智库成果的时候讲到了县域合作。我们跟县域也有非常强的合作。比如,我们已经跟江西的几个县签订了数百个数字人直播的矩阵的服务。此外还有陕西、山东的几个县,都是通过矩阵直播间的形式,来跟他们合作。
我给大家再简单讲几个虚拟人的案例。虚拟人是我们通过3D建模建出来的,是一些大品牌客户,尤其是一些比较想做自己IP的客户更喜欢的类型。我们通过3D扫描设备,建立多模态的数据,让这些数据更好的去服务客户。未来我们其实采集的是大量的真人数据,来让AI进行学习。AI缺的就是高质量的数据,这些大家都有共识。
如何产生高质量的数据?我们团队一直在做这件事情,从模型、动作、表情、贴图、语料等方面进行。通过对真人扫描,就可以快速创建虚拟人。我们还可以通过拖拽的方式快速调整想要的五官位置。这种技术使我们可以快速地生成想要的虚拟人,精度非常高。大家这段时间关注的《黑神话》游戏,游戏里面所有的角色都是通过3D手动建模或者扫描建模出来的。这种3D虚拟人是大客户比较喜爱的类型之一,因为它的辨识度极高,灵活性和可操作性也非常高。所以给大客户我们更愿意用这种三维的方式为他们提供服务。还有美型、二次元、卡通等各种类型的虚拟人,可以在直播间里随意地换装、玩特效、表演才艺等。
XR也是现在很多品牌客户非常喜欢的一种形式,用来做各种虚拟发布会。在XR里,我们可以随时随地地变化虚拟人、更换它的背景。大家经常用手机看直播,手机竖屏里就那么一点空间,每一个部分都是可以替换的。我们可以用3D模型来展示商品。当然了,你甚至可以把观众邀请到里面,进行实时互动。
所以3D的虚拟人也好,前面讲到的2D数字人也好,不管是哪种形态,目前在整体的中小商家品牌客户当中,他们各有选择,各有喜欢。所以通过我们提供的一整套技术,我们希望可以给客户提供标准化解决方案。这里面涉及三个关键词,叫“低成本”、“短周期”和“批量化”。我们希望可以给我们的客户提供一个平台,在平台上面快速去创建虚拟数字人,甚至我们运营陪跑。我希望每个客户、每一个品牌未来都有自己的数字人直播间。感谢大家!
关于本次会议:
电子商务大会自2011年以来已连续举办十四届,作为中国国际服务贸易交易会(简称“服贸会”)重要组成部分,已成为引领电子商务发展前沿理念、展现电子商务创新成果、洞悉电子商务发展趋势的国际化专业化交流平台。
本届大会以“全景融合 数智领航”为主题,邀请到上合组织、商务部研究院、中国国际电子商务中心等机构专家代表,以及京东、阿里、美团、多点、同仁堂、转转集团、齐心集团、硅基智能、敦煌网、极睿科技等企业高管共聚一堂,探索电商全景融合的业态发展趋势,展望数智创新导向的产业变革方向。
文章来源:亿邦动力