广告
加载中

声网如何用实时音视频重塑人机对话?| AI竞争力访谈

缪悦 2025/04/22 18:08

【亿邦原创】当全球开发者还在为AI语音交互的复杂接入流程头疼时,声网用"2行代码+15分钟"的解决方案打破了行业桎梏。这家成立于2014年的实时音视频云服务商,正在用对话式AI引擎重新定义人机交互的边界。

2020年登陆纳斯达克的声网(股票代码:API),已悄然构建起全球最大的实时音视频网络SD-RTN™。最新数据显示,其服务覆盖200多个国家和地区,全球注册应用超93.1万,单月服务时长突破700亿分钟。从小米、哔哩哔哩到海外巨头HTC VIVE,声网的API已成为数字世界的基础设施。

在生成式AI爆发的2024年,声网推出的全球首个对话式AI引擎展现了惊人的效率——端到端响应延迟低至650ms;兼容OpenAI、DeepSeek等主流大模型;接入成本仅0.098元/分钟。

另外还落地了五大应用场景:

虚拟陪伴:情感化对话缓解都市孤独症;

智能硬件:让毛绒玩具实现自然语音交互;

口语陪练:时空壶等平台实现实时发音矫正;

智能客服:7*24小时响应,人工成本降低30%;

同声传译:灵动会议产品打破跨国沟通壁垒。

"这个行业需要坐得住冷板凳。"声网团队表示。十年间,从直播连麦到元宇宙,再到如今的AIGC,声网始终坚守实时音视频核心技术研发。正是这种长期投入,使其能在AI浪潮来临时快速推出对话式AI引擎。

随着自然语言界面(LUI)逐步取代传统交互方式,声网的技术布局正在打开一个千亿级的实时交互市场。在AI重构软件生态的进程中,这家中国科技企业已经卡住了关键赛道。

围绕“全球化新品牌需要怎样的AI竞争力”的主题,亿邦动力邀约众多跨境企业进行系列访谈,分享其如何应用AI技术提高服务出海企业的水平,帮助出海企业提升综合竞争力。以下为亿邦动力与声网团队的访谈内容,经编辑整理。

亿邦动力:请介绍一下您的公司和主要业务。

声网成立于2014年,是全球实时音视频云服务开创者,为人与人和人与智能体的音视频互动提供最佳体验。开发者只需简单调用声网API,即可在应用内构建诸如对话式AI、音视频通话、直播等多种实时互动场景。声网API已赋能AI、社交直播、教育、游戏、IoT、金融、医疗、企业协作等20余行业,共计200多种场景。

2020年6月26日,声网母公司Agora,Inc. 成功登陆纳斯达克,股票代码为“API”。截至2024年12月31日,声网全球注册应用数超过93.1万。单月服务超700亿分钟(按频道人数计时)。

声网推出了全球首个对话式AI引擎,以赋能开发者基于任何大语言模型构建实时语音对话体验。创造了全球首个、迄今为止规模最大的实时音视频网络——软件定义实时网SD-RTN™。

声网的技术服务覆盖全球200多个国家和地区,客户包括小米、陌陌、斗鱼、哔哩哔哩、小红书、Yalla等巨头、独角兽及创业企业;声网的技术同样被HTC VIVE、The Meet Group、Bunch等遍布全球的知名企业采用。

亿邦动力:你们的产品及其核心应用场景是什么?怎么帮助全球化品牌/出海企业提升竞争力、解决业务痛点、重构运营方式?

我们的核心AI产品是声网对话式AI引擎,这是全球首个对话式AI引擎,可支持开发者凭借2行代码、15分钟,就将任意文本大模型快速升级为“能说会道”的对话式多模态大模型,主要有以下应用场景:

智能助手:通过自然语言交互,帮助人们进行日程管理、信息查询和任务执行,全面提升生活便利性,并提高工作效率。

虚拟陪伴:提供情感化对话和互动,缓解孤独感,满足用户的情感陪伴需求。

口语陪练:模拟真实对话场景,提供实时反馈和纠正,帮助用户提升口语水平。

智能客服:代替人工坐席自动受理客户咨询与投诉,提供7*24小时无等候的即时响应服务,降低企业运营成本,提升客户满意度。

智能硬件:嵌入对话式AI,实现语音控制、智能看护、智能陪伴和个性化服务,将你的设备升级为智能硬件体。

在生成式AI的浪潮下,音视频社交应用出海热度不减,催生的诸如虚拟陪伴、情感陪聊、心理疗愈等应用持续火热,另外搭载AI芯片,可以让毛绒玩具开口说话的陪伴式AI机器人也在海外爆火。这些场景都需要对话式AI技术的深度参与,声网对话式AI引擎端到端响应延迟低至650ms,兼容全球主流大模型比如OpenAI、DeepSeek、通义等等,为出海的企业提供了灵活的搭配和丰富的选择,此外声网对话式AI引擎支持2行代码、15分钟即可快速接入,且仅需0.098元/分钟,为出海企业开发者节省了大量的人力及资金成本。

目前我们的产品和服务已经在社交泛娱乐、智能硬件、口语陪练等诸多行业落地,代表客户有MiniMax、珞博、时空壶、豆神AI等等。

亿邦动力:大模型及生成式AI技术的快速发展给你们的产品带来了哪些变化/升级/重塑?(AI技术的应用是如何改变你们这个行业/这类服务型产品的?)

近十年的互联网风口,离不开RTE(实时互动)的能力参与和赋能。从狼人杀、直播连麦、在线教育、互动播客、元宇宙,到近两年大火的AIGC,声网基本预计和踩中了每次的互联网风口。

我们认为,生成式AI将会助力RTE能力的进化与普及,同时生成式AI也将借助RTE能力以及RTE应用的广度与深度来进化自身:

生成式AI驱动IT行业进化,RTC技术栈和基础设施有大量改进空间,只有通过改进,大模型才有机会在各种场景、形态、模型下大规模参与到和人的语言对话中;

RTE必将成为多模态AI基础设施和应用的关键部分;

RTE技术中的低延迟能力将成为生成式AI云边端协同的核心优势。

具体到产品来说,声网去年推出了Linux Server SDK,支持当下大模型编程最主流的两类语言Python与 Go,企业可基于声网Linux SDK,快速接入大模型,上线具备RTC传输能力的AI应用场景,如AI语音助手、AI口语老师、虚拟恋人、多人语音游戏等。今年,声网还推出了全球首个对话式AI引擎,帮助开发者与企业快速构建适配自己业务场景的AI实时语音对话服务。

声网布局RTE+AI结合带来的场景创新:

交互更丝滑的AI助手,通过文本、图形、语音、视频与AI进行实时交互,提升个人生产力与效率;

更拟人化、更具真实感的虚拟陪伴,通过自定义人设、声音、形象等模拟真人声音及情感,为用户提供情感支持、心理慰藉以及陪伴;

口语陪练,通过定制化的分级语料训练,学员提供个性化的多语言发音指导;

智能语音客服,通过实时语音与AI客服互动,提供信息查询、日程管理、日常提醒等服务;

同声传译,通过语音支持多人、多语言快速翻译,适用于跨语言对话交流;

智能硬件带来全新的人机交互体验,基于智能手表、智能耳机、智能眼镜以具身智能机器人等硬件终端实现与AI的交互;

会议场景上,声网的aPaaS产品灵动会议已经把实时字幕、实时翻译和智能会议纪要完全做在模板里,任何做会议协同甚至社交场景的开发者和创业者,都可以利用这一能力简单打破语言障碍。

亿邦动力:你们的技术和产品优势是如何积累起来的?

积累优势无非就是不断的投入与创新,坚持长期主义。

实时互动云服务最重要的是如何保障每一秒钟的互动体验质量,这对于技术有着很高的要求,目前整个行业还属于早期,在技术成熟度、行业标准等方面还没有足够完善,我们更注重长期竞争力的提升和长远发展,无论是研发还是其他成本的投入,对于实时互动云技术服务商提高长期竞争力而言是非常重要的。行业整体发展速度不会爆发式增长,而需要坐得住冷板凳,要在长期投入后才能提升能力,需要靠创新去驱动。

亿邦动力:从你们所处的行业环节来看,全球化品牌/出海企业对于AI技术、AI工具的应用程度和效果如何?这个过程涉及哪些变化和挑战?

我们看到在社交娱乐、口语陪练、教育、智能硬件等行业都已经在应用,比如上文提到的虚拟陪伴app,以及可以说话的AI玩具等等,我们的客户珞博Robopoet,就是借助声网的对话式AI能力,在今年MWC展上,发布了Fuzzo。这款AI陪伴机器人能够进行自然流畅的对话,提供实时情感陪伴和个性化交互。

亿邦动力:您对AI在品牌全球化/跨境电商领域的应用有什么样的观察?判断未来几年会有哪些趋势?

趋势一:终端的进化将以对大模型的能力支持为核心驱动。在未来十到二十年,无论是PC还是智能手机,必然会以如何更好地支持大模型能力在端上的应用,以及推理能力的成熟和推理性能的提升为主要进化轴线。

趋势二:所有的软件都可以且将会通过大模型重新实现。仅仅在现有软件中运用大模型能力进行小改进和补充是远远不够的,而是要以大模型能力为核心,重新思考每个领域的软件应如何设计、如何实现,以及最终会有怎样的使用体验和效果。这便是从 “Software with AI” 到 “AI Native Software” 的根本转变,也将改变行业的技术框架和技术能力进化方式。

趋势三:所有的云都需要具备对大模型的训练和推理能力。大模型出现后,对于云服务而言,在早期提出的三个基本能力之外,GPU算力必然成为第四个关键能力。没有这一能力,就很难成为一个真正意义上的大规模公有云服务。

趋势四:人机界面从键盘、鼠标、触屏转变为自然语言对话界面(LUI)。自计算机出现的第一天起,人机界面就是一个持续进化的话题。从窗口卡片,到键盘鼠标,以及当下最主流的触屏,都不如几十年前科幻小说中就开始提出的自然语言人机对话界面更为易用、高效。多模态对话式智能体(Agent)的出现,已经渗透到IoT设备以及电脑、手机的各种软件中,也将极快地改变这些设备中人机界面的使用体验。以上四个趋势定义了下个时代IT进化的主题,也将成为IT进化的核心驱动力。在这样的时代背景下,我们认为生成式AI将会一如既往地助力RTE能力的进化与普及,同时生成式AI也将借助RTE能力以及RTE应用的广度与深度来进化自身。

我们对生成式AI的未来发展有两个方向性的总结:

其一,向多模态深度进化。目前,文字所能提供的训练数据已基本被充分利用。语言作为声音化的文字,所提供的信息和数据空间将会被放大很多倍。同时,自然环境声音和视觉数据的获取与运用,也将为大模型提供几乎无限的数据空间,进一步满足大模型智能进化的数据需求。

其二,多步推理。无论是思维链(CoT)还是多Agent协同的方式,都为依托推理引擎完成具有高智能、高复杂度的现实任务提供了清晰的机会。这必然会成为一个重要的发展方向,从而实现利用大模型完成许多人完成起来都颇具挑战的任务。狭义的通用人工智能(AGI)有望在未来几年内通过多步推理的方式迅速变为现实。

AI走进商业现实,品牌和跨境电商打头阵,2025全球化新品牌AI竞争力大会,6月6日定档杭州。本次大会以“进化抉择”为主题,由亿邦动力与嘉御资本联合主办。欢迎关注:


文章来源:亿邦动力

广告
微信
朋友圈

这么好看,分享一下?

朋友圈 分享

APP内打开

+1
+1
微信好友 朋友圈 新浪微博 QQ空间
关闭
收藏成功
发送
/140 0