广告
加载中

AI语音从“输出”到“输入” 资本在用千万美元押注什么?

张凯然 2025/07/31 08:30
张凯然 2025/07/31 08:30

邦小白快读

语音输入领域获资本青睐,Willow Voice和Wispr Flow完成高额融资,展示技术对比和用户反馈。

1.融资数据:Willow Voice获420万美元天使轮融资,Wispr Flow完成3000万美元A轮融资,信号显示AI语音输入创企正受关注,不同于以往语音输出企业如ElevenLabs。

2.技术实操:Willow和Flow专注于语音转文字,但增加文字处理层,包括格式化(断句和去语气词)、上下文理解(纠正口误)、语境识别(输出不同风格),测试中Flow比OpenAI Whisper表现更好。

3.测试干货:在To do List场景,Flow格式化更好;含专业术语的备忘录场景错误率仍高;回复邮件场景略有改进但文风口语化,整体未达零编辑目标。

用户反馈和未来潜力:Flow用户月环比增超50%,6个月留存率80%,付费率19%,年收入380万美元,揭示语音输入提效的差异化体验可能颠覆键盘交互。

AI语音输入的发展趋势为新品牌提供产品研发和用户行为洞察方向。

1.用户行为观察:目标用户如硅谷VC/创业者/高管需处理大量文字,工作地点灵活;学生、开发者等也加入需求,显示消费者偏好高效非键盘输入的趋势。

2.产品研发启示:Willow和Flow的创新点在于三层文字处理:格式化、上下文理解和语境识别,提示品牌可优化交互技术提升用户体验。

3.消费趋势:测试场景如回复邮件和备忘录显示口语转书面语痛点,反映用户对自动化工具的潜在需求,建议品牌关注此研发分支抢占市场。

品牌定价和竞争参考:Flow高付费率(19%)证明用户愿为优质服务付费,提供定价策略启发,如针对B端专业用户溢价销售。

语音输入市场增长带来新机会和风险,卖家可学习商业模式和应对措施。

1.增长市场和机会提示:Willow和Flow获融资信号行业升温,用户需求如远程工作场景(在外处理文字)显增长点,提供合作方式如与创企联营。

2.风险提示:测试显示技术差距大,专业术语错误率和文风口语化问题导致未达零编辑目标,提示风险如产品可靠性挑战。

3.可学习点和正面影响:Flow高用户粘性和付费率(留存率80%)启示优化输入流程减少摩擦;事件应对可参照VC押注逻辑:现实提效加未来颠覆可能性。

最新商业模式:创企以文字处理分层差异化,卖家可借鉴此策略开发类似工具或服务。

AI语音输入热潮揭示商业机会和推进数字化启示。

1.商业机会:Willow和Flow的融资案例(合计超3400万美元)表明资本转向语音输入创企,提示工厂可切入此供应链如生产专用硬件。

2.产品生产和设计需求:测试结果如格式化需求增加(正确标点和分点),启示工厂设计支持语音识别的智能设备组件。

3.推进数字化和电商启示:Flow用户行为(在非办公室场景使用)显示移动办公趋势,工厂可开发便携式语音输入设备优化生产流程。

商业机会扩展:语音操作系统未来可能颠覆键盘,工厂可提前布局自动化生产链匹配此需求。

行业发展趋势和新技术聚焦客户痛点与解决方案。

1.行业发展趋势:资本转向语音输入创企,如Wispr Flow A轮融资,信号AI语音从输出到输入的演变趋势。

2.新技术亮点:Willow和Flow的ASR技术引入文字处理三层(格式化、上下文理解、语境识别),虽未完全实现语境识别层,但技术进步明显优于OpenAI Whisper。

3.客户痛点和解决方案:测试场景揭示痛点如口语转书面语编辑需求大;Flow的差异化体验(前两层优化)提供解决方案,服务商可整合此技术开发行业定制工具。

客户痛点深入:正式文风和专业术语错误提示服务痛点,服务商需加强模型训练数据。

商业对平台需求和平台最新做法围绕人机交互优化。

1.商业对平台需求和问题:用户如高管和开发者需语音输入平台减少交互摩擦,测试中未达零编辑暴露问题如专业术语识别不精确,提示平台需解决可靠性问题。

2.平台最新做法和招商:Flow通过Product Hunt触达用户,月环比增超50%,展示平台招商策略可学习;其自然语言交互做法(如Vibe Coding)启示平台运营管理如引入语音API。

3.风险规避:未实现第三层语境识别风险大,平台商需规避如多场景测试和质量控制。

平台需求扩展:未来语音操作系统颠覆可能性提示平台商整合AI模型提升生态吸引力。

产业新动向和新问题揭示商业模式和政策启示。

1.产业新动向:资本重投语音输入(Willow和Flow融资),信号从语音输出向输入转移的新动向,ElevenLabs等对比显示行业变革。

2.新问题和商业模式:测试结果暴露问题如格式化场景错词率高、语境识别未实现;Flow商业模式(高付费率19%)启示商业化路径:提效+颠覆潜力VC押注逻辑。

3.政策法规建议和启示:口语书面语差异带来隐私和数据治理问题,研究可建议标准如开发规范指南;未来颠覆键盘的可能推动政策关注AI伦理和交互安全。

新问题深入:技术差距(三层优化未全)提示研究方向如模型训练优化。

{{loading ? '正在重新生成' : '重新生成'}}

返回默认

我是 品牌商 卖家 工厂 服务商 平台商 研究者 帮我再读一遍。

7月 16日,语音输入创企Willow Voice宣布完成420万美元天使融资,由YC领投;而就在几天前,6月 25日另一家语音输入创企Wispr Flow也宣布完成了3000万美元A 轮融资。

此前,我们一直在观察AI语音赛道,但能拿到融资的基本都是做语音合成,也就是“输出”。比如赛道头部的ElevenLabs,在今年1 月份,完成了C 轮2.5亿美元融资,估值达到30亿美元以上。

但最近的2 笔融资,貌似在释放另一种信号,反向做“输入”的语音创企,正在获得资本的关注。

语音输入2012年就有,

为什么还能拿到融资?

Willow Voice和 Wispr Flow(下文简称为Willow和 Flow)专注ASR技术(自动语音识别),两款产品基本类似,都有点类似“语音输入法”,用户只需要按下电脑手机上的特定按钮,就能直接将讲话的内容转录成文字。

乍听上去,这已经是我们在日常生活中习以为常的功能,比如,微信2019年就在iOS端推出了“语音转文字功能”,苹果更是在2012年的iOS 6中就上线了最初版本的“语音听写”(Voice Dictation)功能,且ElevenLabs、OpenAI等 AI时代的明星创企也都覆盖了语音转文字的场景。

Formatted(格式化):需要模型直接输出正确的格式,也就是说不仅词汇的识别正确,也需要正确输出大小写和标点符号。Unformatted(非格式化):仅考虑词语本身的识别正确率

根据VoiceWriter.io的测试,除Google Cloud的转录功能稍差之外,其他产品的差别不大,在非格式化文本场景下大部分产品的错词率都在10% 以下,与未经专业转录训练的人类水平相当,但在需要考虑标点和大小写的格式化文本场景,语音转录模型表现稍差一些,所有产品的错词率平均增加了10%。

而根据Flow创始人Tanay Kothari在播客中的说法,虽然AI对非格式化文本转录时的WER已经很低了,但却没有意义,因为就算有产品能做到1% 以下的错词率,仍意味着每几句话就有一个错词,用户仍无法完全信任AI。

而且由于口语和书面语有所差别,所以即使模型能够完全按照用户所说进行转录,用户也不会将输出文字直接作为消息发送或储存到笔记产品中,仍需要简化和改错。

在这一理念的指导下,Flow与传统语音转文字的区别是,追求“零编辑信息”,做法上,两款产品均是在“AI直接转录内容”和“输出内容”中间加了“文字处理”的步骤,给用户输出能够直接使用的文字。而这一步文字处理分三个层面,一是格式化文字输出,即正确断句、去语气词等;二是上下文的理解,比如能够自动纠正口误、识别情绪等;三则是语境识别,即在DM、邮件、笔记等不同的输入场景中,输出不同风格文字的能力。

而经过对Flow、Willow和 OpenAI Whisper进行初步对比测试发现,OpenAI Whisper的输出仅停留在第一层,Flow、Willow能做到第二层,而第三层则基本都没有做到。

目标很美好,但现实达不到

从产品逻辑上看,Flow和 Willow其实完成的是“口语输入”到“书面语输出”的流程,那么既然是以书面语为主,其使用场景也就更加偏向办公场景。

而由于语音输入相比键盘输入对周围的影响更大,没那么适合坐工位的普通打工人。所以,从Flow创始人的分享来看,他们最初瞄准的是接受大量信息、有输入提效需求,且大多有单独办公室或经常在外(非办公室)处理工作的硅谷VC/创业者/高管群体。

而在通过VC/创业者/高管进行初期裂变之后,Flow开始通过Product Hunt来触达更多有需求的用户,比如学生、代码开发者、创作者/作家、律师、咨询顾问等。与VC/创业者/高管群体一样,这部分用户也有需要处理大量文字或有长文本输入的需求,且工作地点普遍比较灵活,亦会经常在外处理文字。

鉴于“工作状态下的文本输入”及“非办公室”两个特点,我们设定了To do List、邮件回复、会前备忘录三个场景,对Willow和 Flow,及ChatGPT听写功能(Whisper模型驱动),进行对比测试。

测试1:To do List场景

场景描述:在去往办公室的车上,一位Team leader需要梳理当天的重要事项,并在笔记App中记录下来。

口语化内容:嗯…今天首先要更新主页面的图标,然后在三点半前发上线通知。第二,四点钟要与团队开复盘会。还有,把上周的日报发给John。第三,五点前,把用户反馈汇总文档整理了,最后,晚上七点前,把下周的排期发给产品。

输出要求:关键信息正确,代办事项自动分点呈现。

不同产品的输出:

评价:在这个场景中,三款产品均没有丢失时间/事项等核心信息,Flow和 Willow都按照原文中的“首先/第二/第三/最后”等标识词进行了分段,看上去更像是To do List,而在标点符号和格式上,Flow做得更好一些。

而OpenAI的 Whisper总体表现最差,虽然加了标点,但没分段,还在最后加入了冗余文字。

测试2:含专业术语的备忘录场景

场景描述:在券商的财报点评会开始之前,用户作为券商分析师需要对财报的亮点进行简单总结,形成文字备忘录,并分享给团队其他成员。

口语化内容:“呃…我刚看了那个财报,XX这季度虽然同比是有增长的,但是环比是负的,然后它那个订阅收入占比在上升,主要是那个XX和 XX的贡献吧,另外它跟阿里的那个可转债得看看了,就是是不是有摊薄风险的问题?我建议把重点放在产品结构和付费动能这块,营收增速还是偏保守。”

输出要求:关键信息正确,专业术语正确,语气偏正式。

不同产品的输出:

评价:在带一定专业术语的备忘录场景下,三款产品均在“摊薄风险”这个术语上发生了错误,Willow和 Whisper也都出现了为数不少的其他错误,而当笔者手动在Flow中添加了“摊薄风险”这个词后,Flow仍没有正确输出,总体来讲,三款产品都没法胜任专业一些的场景,但相比之下Flow做的略好。

除此之外,三款产品均没有修正诸如“环比是负的”等,一些“口语化”表达,也没有进行逻辑梳理,笔者在输入时将“收入”拆分到了第一句和第三句来讲,三款产品均没有将同类内容合并到一起。

测试3:回复客户邮件场景

场景描述:在机场,用户需要回复客户的咨询邮件,提供建议。

口语化内容:您好,看到你们说想优化销售流程,我感觉其实你们现在的问题还挺典型的,就是前期线索进来之后没有特别系统的筛选机制吧,然后导致后面销售在跟进的时候效率挺低的——像这种情况,我们之前有几个客户也遇到过,一般会建议统一一下线索评分的标准,或者引入个比较轻量的CRM系统啥的也可以。我这两天再把我们之前做的一个案例给你整理一下,到时候你看看是不是有参考价值哈。

输出要求:自动分段、呈现邮件格式、文风正式。

不同产品的输出:

评价:Flow和 Willow都按照邮件的格式将“你好”另起了一行,Flow在分段方面做得更好一些,三款产品都没有能很好地修改输入时的口语化表达,仅有Flow有将“到时候”改成了“届时”。整体来看,邮件的文风仍非常口语化,在发送之前需要用户手动修改。

体验下来,Flow和 Willow质量虽然可接受,但距离其“零编辑”的目标,相差还是挺远的,在专业术语的识别、以及正式文风中,都出现了不达标的输出。笔者对英文转录也进行了测试,结果差不太多,也会出现转录出错的情况。

写在最后

虽然从测试结果看,Flow和 Willow在专业术语和正式文风等场景中距离“零编辑”还有一定的差距,但根据各媒体的报道,Flow的用户粘性和付费率都相当高,截止目前,Wispr Flow官宣用户规模月环比增长超50%,6个月活跃用户留存率达到80%,付费率高达19%,年收入(2024.7-2025.7)已经达到380万美元。

未能达成“零编辑”目标与用户付费之间,是Flow这类产品虽然还不能让用户完全不动手、但已经相较于之前提供了差异化的体验。

根据Reddit和 Product Hunt上评论,在不是那么正式的输入场景下,Flow表现得比其他产品好很多,能够令人满意。比如有用户用Flow与 Cursor进行自然语言交互(如上图)进行Vibe Coding,在这个场景中,用户只需按mac键盘上的一个按键、就可以直接口聊,虽然在第3 层针对于特定场景的书面语转化中,Flow还有所欠缺,但在前2 层格式化与上下文理解,Flow表现明显强于OpenAI的 Whisper为首的其他产品。

Flow的超高粘性和付费率还反映出,通过语音输入来减少人机交互的“摩擦”、实现提效,可能是一个可行方案。虽然Flow和 Willow目前都没有做到在所有场景下“零编辑”的目标,但是随着大模型能力的进一步提升与数据的积累,未来大概率能够有很大改善。

而根据Flow创始人的说法,如果未来“语音输入”可以达到能让用户信任的程度,未来“语音输入”取代键盘,成为人机交互的新范式(语音操作系统)也就不远了,“现实提效+未来颠覆旧范式的可能性”可能才是VC们愿意真金白银投入语音输入的原因。

注:文/张凯然,文章来源:白鲸出海,本文为作者独立观点,不代表亿邦动力立场。

文章来源:白鲸出海

广告
微信
朋友圈

这么好看,分享一下?

朋友圈 分享

APP内打开

+1
+1
微信好友 朋友圈 新浪微博 QQ空间
关闭
收藏成功
发送
/140 0