【亿邦原创】“张总刚才那段决策是谁说的?”“李总监的建议具体是哪一句?”——在回放会议录音时,这样的困惑几乎每个职场人都遇到过。
所有人声混杂在一条音轨里,想要定位某位同事的发言,就得反复拖动进度条,靠声音记忆去猜测,效率极低且容易出错。
这就是传统会议录音的痛点:听得见内容,分不清是谁。在多人讨论的场景下,这种“无名氏”式的记录方式,让后期整理变得异常艰难,严重影响了信息传递的效率。
面对这一顽疾,腾讯AI工作台ima.copilot(简称ima)全新推出的“发言人识别”功能,让每个声音都有了自己的“身份ID”。
“发言人识别”可以基于智能声纹识别技术,可自动区分不同说话人,转写文本直接标明“发言人1”、“发言人2”……还支持中文、英文、粤语及7种方言(包括四川、陕西、河南、上海、湖南、湖北和安徽方言),即使多种语言方言混合表达,也能精准区分,大幅提升多人对话的记录与整理效率。
ima“听音识人”背后是微信与腾讯云联合打造的ASR大模型,在远场、噪音、多人同讲等复杂环境下,字错率降低约20%,还可动态适应不同口音和语速。尤其适合职场人、教师、记者、学生等用户群体。
亿邦动力注意到,几乎每个厂商,都将降噪能力、远距离收音、发言人识别当作核心功能。发言人区分、内容摘要、要点提取、多语种翻译等一系列增值功能,正成为产品的标配能力。
同时,大量语音识别功能背后都配备文档模板,可以会议、销售、面试、讲座、医学问诊等特定场景的录音,直接填入特定文档。
相比图像识别、文本生成等领域,语音交互具有天然的便利性和普适性。在会议、访谈、客服等高频工作场景中,语音转写是刚需,也是AI技术最能直接体现价值的领域之一。
如今的语音识别竞争,早已超越“谁能转得更准”的初级阶段,进入了一个更加精细化的新维度。比如,在嘈杂环境下的降噪能力、对专业术语的识别准确率、对口语化表达的理解能力等。
这是一个典型的“看似简单,实则极难”的AI应用。听音识人”的核心技术是声纹识别。它通过分析每个人声音中独特的生物特征(例如音调、语速、音色等)来进行身份识别和区分。
多人同时发言时,传统模型容易将重叠语音错误地归因于某一个说话人,或者直接忽略部分语音内容,需要先进的分离算法将混合声学信号分解,并准确分配给不同的说话人。
想要做到发言人识别,还需要在秒级内完成声纹提取、语音识别和说话人关联,要在准确率和推理速度间找到最佳平衡点。需要工程落地的极致优化。
当前大厂在这一领域“卷”得如此细致,正是因为这些技术难点构成了很高壁垒。每提升1%的准确率,每多支持一种方言,背后都需要巨大的研发投入和技术积累。
从听不清到听得见,从听得见到听得懂,再从听得懂到听得“精”——小小录音笔背后,藏着下一个亿级用户入口的卡位战。
亿邦持续追踪报道该情报,如想了解更多与本文相关信息,请扫码关注作者微信。
文章来源:亿邦动力