AI浪潮席卷全球,无论是B端智能制造,还是C端各类软件应用,AI逐渐渗透生产生活的方方面面,也推动人机交互模式朝更方便快捷的方向发展。
智能手机盛况在前,一批看到机会的软硬件厂商纷纷下场押注AI硬件,希望自己能成为下一个“苹果”。
2016年声智刚创立时,恰好赶上智能音箱的浪潮,当时声智主要给小米、华为等友商提供麦克风阵列模组、语音交互开发框架等技术支持。而在今年夏天,声智依托自身声学技术背景,在抖音上推出了首款AI耳机,并取得了不错的成绩。
Tob企业向Toc转型并不容易,生成式AI带来交互变革的同时也给厂商提出了新的难题。比如大模型应该如何给AI硬件赋能,什么样的AI硬件更能被用户接受,国内外市场何处能挖掘到最大增量。诸如此类的问题都在困扰着硬件厂商。
本期,我们邀请到了声智科技副总裁、AI产品线负责人黄赟贺做客鲸犀出海百人谈,分享她对AI硬件市场的洞察以及声智的转型经验。以下是该场直播讨论的内容,雷峰网鲸犀进行了不改变原意的编辑与整理:
鲸犀:请跟鲸犀出海百人谈的朋友们做一下自我介绍
黄赟贺:大家好,我是黄赟贺,现任声智科技副总裁,负责AI产品线。声智聚焦关注AI大模型落地应用,在AI硬件产品领域做了很多年。今年我们推出了一款FairyClip珍珠耳夹式AI耳机,在抖音首月销量达到10万台。今天希望借这个机会,能和对AI赛道感兴趣的小伙伴们分享我们做产品以及创业的心路历程。
鲸犀:说到AI耳机,那么AI耳机和传统耳机有什么不一样的地方?
黄赟贺:AI耳机和传统耳机的区别,大家听名字直观感受就是多了AI,融合了人工智能技术。声智在做AI大模型应用时候,当时一个思考就是如何让我们的用户愿意接受AI。2016年声智创立时,正好赶上了智能音箱的浪潮。智能音箱的普及让大众对语音唤醒、语音指令等交互模式有了初步了解,所以我和家里上一辈人解释我们的产品时,常会说,声智的耳机相当于把智能音箱放在耳朵上了,他们也能很快理解AI耳机要怎么去用。
现在大部分厂商提到AI耳机,大多数的营销方向还是在AI 翻译、AI转写等工具属性的AI能力上,以及其他包括AI眼镜、AI戒指之类的,我们都管它叫手机配件,它无法脱离手机去独立存在。我们期待这些AI硬件的下一步进化,是真正脱离手机,能够独立呈现的一个作品。类似骑行的场景,骑友们不必掏出手机,直接与AI耳机交互就能导航路线。
鲸犀:智能音箱可以做麦克风阵列,保证声源定位和降噪等功能,耳机只能做一个麦克风,AI耳机怎么解决这些声学问题呢?相比智能音箱,它还有哪些其他功能?
黄赟贺:音箱是远场交互,噪音强人声弱,但耳机是近场环境,在交互这块会比音箱的表现更好。AI耳机又因为有大模型技术的加持,各方面反馈会比传统耳机更好。因为它的延迟性会被降低,我们可以去做到流式的输出,用户先说出一个字的时候,AI就已经开始进行反馈,不会像过去一样,系统响应需要很长一段时间。
目前大模型的语音克隆技术也非常成熟,不会再让用户有机器音的疏离感。口语场景化也会更好,因为大模型翻译出来的语义会更加连贯。另外,透露一个小秘密,声智接下来准备出海的产品,我们会做到,您在这边说中文,另一边传达到时已经变成纯英语的状态,只要把翻译转化的时间拉到毫秒级别,基本两个不同语种的人在沟通时候可以实现无感交互。
对于AI智能写作、AI翻译、转录之类的功能,我们也在观察后台用户数据,基于实际用户反馈,我们发现一些AI能力用户理解门槛比较低,或者一些功能是用户需求比较大的,我们后续系统升级也会加强这些能力。我们目前的产品思路,就是希望我们的耳机变成年轻人的AI搭子。我们一直认为,AI一定要在具体的场景里才能发挥作用,才能降低用户理解门槛,而不能只把它作为一个工具摆在那里。
鲸犀:声智这款AI耳机出圈的原因,还在于它的外形非常像珍珠,可以作为耳饰佩戴,可以给我们介绍一下吗?
黄赟贺:声智的设计思路来自前段时间美国大选哈里斯竞选的时候,有人怀疑她戴的珍珠耳环其实是个蓝牙耳机。这种珍珠配饰形态的耳夹式,大家容易会忽略它是一个耳机,在工作中依然可以佩戴,既能保证工作可以正常输出,也更具颜值。
近期我们还出了一个黑色款,跟黑神话悟空的色调很像,上架即售罄。我们营销策略整体偏向年轻时尚,耳机的外观设计方面,和传统耳机做出差异化,也是我们觉得比较吸睛的点。声智的直播间,也和其他友商的科技风格不太像,网友说我们老是展示功能展示佩戴效果,看起来像卖衣服的,的确我们直播间的小组长,原来就是做服装直播的,这种非常规的营销方式,可能也是声智产品能做出圈的一个原因。
鲸犀:据我了解,声智系统用的是自研大模型,声智为什么要自研大模型?自研的大模型能在声学技术上带来什么不同之处?
黄赟贺:声智的理念是“技术为产品服务”,我们是产品和运营在先,技术作为坚实的后盾。AzeroGPT的中文叫壹元大模型,取自于壹元初始、万象更新,因为我们希望把0到1这个过程做到极致。做自研模型的关键在于它能根据产品需求以及用户反馈及时做调整,避免采买带来的滞后性。
比如在最卷的语言模型训练上,我们就关注到了一个精简性的问题。因为人机交互场景不是长文概念,类似微信场景60秒一条语音,用户不可能对着机器长篇大论,他希望得到的答案,也是基于提问给出的很精简的、可用性很强的答案,自研大模型就可以根据我们观察到的用户需求,调整训练方向。另外,大模型的运用也让我们耳机的硬件成本降下来,并且在回声抑制和噪声消除等耳机功能方面,有更好更精准的效果。
鲸犀:AzeroGPT是能够在语义上做理解,还是主要在语音上?
黄赟贺:我们现在模型构成是三个板块,声学、语音和语言。从交互逻辑来讲,声学先对声音进行采集,采集声音之后进行解析,降噪、回声抑制都是对声学信号进行处理,然后才到语音识别,音频进行转译,再通过语音合成以声音形态转递给用户。
当然我们的大模型参数肯定不会像大厂的大模型参数一样那么大,所以我们在做这个模型的时候更关注它对人机交互流程上体验效果的提升。所以我们更关注大模型嵌入到硬件里面的技术链路如何更顺畅,让响应速度达到极致,这也是声智创立以来一直致力于解决的问题。
鲸犀:在声学方面,这个大模型处理的结果是相当于一个怎样的水平?比如说能对标豆包,还是不输于GPT-4o?
黄赟贺:GPT4-4o我理解属于端到端模型,我们是按照端到端语音模型去做训练,因为它确实是在 AI硬件语音交互场景下最合适的技术底座。
我们没有想去对标哪家公司,更多的是技术要服务于产品。当然也会看市面上其他模型,发现其他模型或者AI产品的优势再取长补短,这也是为什么要自己做模型,可以根据产品迭代需求、用户需求进行模型优化,采集到合理反馈就会调优。
鲸犀:目前很多用户更习惯于手机端上下滑动,对话式的AI交互会不会造成一定用户门槛?
黄赟贺:移动端的上下滑,我们叫图形界面的交互,下一个形态就是语音交互,再到视觉交互,比如AI眼镜。视觉更复杂,要求的算力也更高,像现在很多AI眼镜看东西会晕,耳机就会好很多,这也是声智会选择AI耳机作为我们AI硬件的首发形态。
鲸犀:AzeroGPT会对外开放吗?
黄赟贺:会对外。我们之前提到的大模型声学、语音和语言三个板块,目前官网都有一个API可以接入。声智很多B端客户像做全息数字人的,之前的数字人可能还是一问一答式,意图理解、槽位匹配的时候,会要有一个运营团队在后面做标注,必须是命中了这个问题的关键词,数字人才能回答问题。
现在新一代的交互形态可以给很多产业赋能,我们也非常欢迎同样做AI硬件的厂商,使用我们的大模型算法以及Azero交互框架。市场一定是百花齐放,大众的认知才会变高,用户的理解成本才会降低,我们的产品才能卖得更好。
鲸犀:聊完大模型,我们再聊聊品牌打造。到目前为止,AI耳机卖得最好的时候是什么样的状态?
黄赟贺:我们的AI耳机对外销售是今年8月份,现在最好的成绩是在抖音自营直播间,这一款耳夹式耳机单店单品一个月卖了10万台,ROI和整体的数据反馈都是非常好的,在抖音3C榜上连续半个月都是第一名,我们没有任何投放动作,也能到前三。
我们认为先在国内卷出来,才能在海外有一个很好的成绩。而字节不仅国内有抖音,国外也有TikTok,能提供很顺畅的平台服务,让声智能够及时动作。我们预计在今年11月份左右启动海外直播间,直击欧美、中东等市场。
我们为什么会选择抖音这个赛道,就是要在最卷的里面卷出来,才能去海外卷。国内企业其实是非常卷的,卷AI、卷供应链、卷产品创意,卷用户数据。要在国内先拼出来,才能在海外有一个很好的成绩,我们的前辈像大疆、Insta360都是非常好的案例。
鲸犀:抖音3C赛道很卷,耳机更卷。从做品牌的角度来说,一个新品能拿到这样的成绩,您认为是做对了哪些事情呢?
黄赟贺:我一直蛮喜欢小米雷总的一句话,他说好多公司都是熬出来的。我觉得这个“熬”字非常贴切,因为我们做这个产品,整个团队大概历经了两年的努力。现在的产品形态,其实还有非常多种备选,今年下半年也会再出很多不同形态的产品。我们没有为了抢占市场,快速推出一款产品直接面向市场。
另外一方面,我们在做营销的时候,不是直接以AI形态去教育用户,而是采取了一种更“春风化雨”的方式,用潮玩圈的思路去做AI,是潮玩品有了AI能力,这样大家就比较容易接受。
比如声智的耳机里有16种AI能力,整个设计风格也带些游戏感,比如里面放吉祥物做串场,给到沉浸式体验等。外观设计方面也有很多小巧思,比如用软硅胶材质达到轻巧目的,换音乐的按键也和平常的不太一样。我们认为,用户得先喜欢你的产品,才能用你的AI功能,团队才能有数据去优化产品功能,形成正反馈。
鲸犀:耳饰通常是女性更青睐,但玩3C的很多是男性,这种策略会不会造成用户流失?
黄赟贺:这款单品设计的时候,没有确定用户消费性别,更多是考虑到实用、美观度的提升。后出的黑色款,男性用户也买的比较多,七夕节的双色套餐,也有很多情侣用户买。另外我们其他产品线,也有商务款之类的偏传统耳机的样式。
鲸犀:AI耳机售价定在199非常巧妙,定价策略是怎么设计的呢?
黄赟贺:我们的低定价是考虑到用户对AI的尝鲜门槛要低一点。因为声智是从智能音箱价格战里走出来的,最早智能音箱都是千元级,后面慢慢小米等厂商降到了199甚至更低,用户尝试成本不高,才快速打开市场。AI有很多功能,哪些功能是用户真正需要的,我们也需要快速打开市场,去了解用户需求,反馈升级系统。
当然我们也有高价款去匹配不同细分人群的需求,比如今年会推出AI助听器,相对来说高价一点,但对比国外AI助听器动辄几万块的水平,声智更希望成为国产之光。声智的声学技术优势,在降低成本和扩展功能方面,都有很大帮助。
鲸犀:过去很多ToB公司在转型做ToC的时候,思维逻辑转换不过来,声智转型的一年多里,遇到过哪些问题?声智怎么应对这些问题?
黄赟贺:我将这个过程定义为从技术到产品、产品到品牌的发展过程,而且这些过程都是声智必经的。
从2016年声智开始做智能音箱,最开始声智是算法支持,后面变成了做硬件跟算法的嵌套。我们也有国家专利奖的Azero的开发框架(AI算法与硬件结合的交互框架)。在做这个的时候,我们已经在做 AI 硬件了,只不过当时我们管它叫行业终端、智慧终端。
现在,我们就是把产品形态换了一个消费领域能接受的形态去呈现,选择了一个比较时尚的外观,把 AI 耳机包装成大家接受度更高的产品。内核的技术架构,对我们而言是成熟且稳定的。我们目前最关心的还是研究用户数据、市场反馈,做营销做品牌,技术反而是最安心的部分。
当然声智转型过程中也会有一些人员上的调整,但调整方向比较明确,营销策略规划都比较清晰,而且整个团队都比较年轻,大家的网感、对最新消费市场的把握都会更强一点。我们将体验店设在中关村创业大街的街上,也是方便用户随时过来进行产品体验反馈,让我们的工程师直面一线。
鲸犀:聊了这么多国内市场,声智目前出海整体策略和规划是怎样的?现在的出海情况如何?
黄赟贺:声智10月份刚刚参加迪拜举办的科技+创新展会,预计年底发布的新品SoundAI OWS Pro在GITEX现场顺利完成了印地语、阿拉伯语、土耳其语等一带一路国家小语种与中文的互译。在商务场合中,用户只要将充电仓递给对方,就可以在符合商务礼仪的前提下,实现跨语言无缝交流。
声智目前也是响应国家一带一路建设倡导,逐渐走出海外,中东在这条线上有很好的市场环境。然后今年声智也会继续在TikTok深耕,借助直播等渠道,进入北美和欧洲市场。我们也提前预测了一些海外市场可能会遇到的问题,比如说品牌认知不够的情况下,怎么让用户去接受产品及定价,我们都做了完整规划,期待第四季度海外会有良好表现。
鲸犀:怎么分析国外的3C市场?
黄赟贺:北大的路教授提出过一个观点:出海等于海外创业。
2023年的时候,大模型比较火,经常有很多论坛邀请我们去做一些圆桌讨论。当时有一个主持人问我, ChatGPT做那么厉害,中国的大模型基本上都是望闻却步的状态,我们有什么能力优势?有多少年的差距?我说中国有自己的优势,供应链优势是我们的优势,我们可以做很多产品创新,有很多不同的形态。
早年间的智能音箱,美国所有的智能音箱加起来就是一小堆。中国的智能音箱有海量的形态,这就是中国的优势。所以我们要把这个优势发挥到最大。我们的创新性、产品迭代的速度、成本优势、定价优势,这些都能在海外市场很好地获客。且北美市场对于AI创新产品的接受度会相对高一些。
鲸犀:这个产品在海外会有市场吗?未来的渠道策略是怎样的?
黄赟贺:像AI指环、胸章、挂坠、耳机、眼镜这些产品,我觉得整个市场都在探索AI形态。最开始鼠标,后面到PC,变成了触屏,与智能音箱语音交互,到现在这个阶段,一直在进行交互形态的升级。下一轮交互形态可能是脱离图形界面交互。
这个交互形态的载体是什么?大家都在探索,现在没有结论说到底哪一个交互形态是完美形态。我比较欣喜,创业公司也好,大厂也好,大家都在寻求创新的状态,国内的“内卷”反倒会助长我们在海外的表现。
当有一个友商出海很成功,会有更多的AI硬件产品出海获得海外市场份额,那个时候全球会觉得 AI made in China 是一个很好的产品形态。现阶段,AI耳机对于声智来讲肯定是最好的一个AI硬件载体,“耳朵里的智能音箱”用户理解成本门槛也会较低,我相信随着市场的蓬勃发展,以及我们AI技术的不断成熟和完善,包括市场策略的精细化,能更好地做出更符合市场需求的AI时代的新产品。
注:文/陈嘉欣、覃倩雯,文章来源:鲸犀,本文为作者独立观点,不代表亿邦动力立场。
文章来源:鲸犀