【亿邦原创】以AI大模型为基础的聊天机器人ChatGPT在一个月内全球爆火,再加上比尔盖茨亲自站台,让AI大模型这一概念在一周时间内形成了人尽皆知之势,产业上也迎来了一波“大模型热”,普通人在讨论自己的工作是否会被ChatGPT替代,各行各业在开研讨会研究ChatGPT如何跟行业结合,互联网大厂在集结团队奋力一搏打造自有大模型,投资人终于找到了新的可投方向……
当下的环境里,大模型已经被神化了,不过他到底是一个什么东西?研发成本和周期有多长?怎样评价一个大模型的优劣?国内外差距有多大?大模型的应用和商业模式会是什么样?
亿邦动力与国内对话大模型创企元语智能COO朱雷进行了深入探讨,以了解大模型的技术特性、应用领域及元语的发展规划。
元语智能成立于去年11月,其创始人、CEO徐亮,联合创始人、CTO张轩玮,联合创始人、COO朱雷长期从事NLP自然语言处理领域的模型和算法工作。在创立元语智能之前的2019年,徐亮和张轩玮便以发起人、联合发起人和会长、副会长的身份,成立了中文NLP开源社区CLUE,CLUE也是当下权威的中文语言模型评测基准,阿里、百度、字节等在内的国内公司都采用了CLUE作为模型评测基准工具。
从左到右,朱雷、徐亮、张轩玮
2019年至今,徐亮和张轩玮一直在开发开源大模型PromptCLUE,2022年10月1日,完整版本的PromptCLUE大模型正式开源。目前开源版本的PromptCLUE参数量达到了7.7亿,元语智能推出的ChatYUAN大模型参数量则达到了百亿级别,在Github、ModelScope、Huggingface等平台,元语开源模型的下载量已有10w以上。
“虽然GPT-3的参数量是1750亿,但是OpenAI从来没有说过这是ChatGPT的参数量,我们业内估算过,目前ChatGPT背后模型的参数量远未达到千亿级规模。”朱雷告诉亿邦动力在语言大模型上,国内外的差距并不像想象中那么大,“我们预计于今年内在中文领域赶上ChatGPT的水平。”
不过朱雷也坦承,OpenAI即将发布GPT-4,如此一来国内又将进入新一轮大模型架构层面的追赶。
大模型是互联网的新时代,但无法真正取代人工
“理论上,只要训练的数据够多、质量够好,大模型能做到人类的水准,至少在文字、图像和视频上有这样的潜力。”朱雷表示,大模型作为AGI通用人工智能技术,能够实现超出人类的语言表达能力,面向专业领域进行针对性训练,还能形成完善的专业知识储备,例如编程。
亿邦动力了解到,大模型参数达到百亿规模之后,便能形成自主学习能力,具备较强的逻辑推理能力。
“不过大模型接收信息的维度不像人那么丰富,所以在创造、研究、情感能力上目前是无法替代人类的,大模型的潜力还需要有新技术突破。”朱雷解释了大模型的局限性。
同时局限于运算成本,诸多大模型能够完成的任务也无法落地成服务,例如:将大模型搭载在人形机器人上替代人力做日常体力劳动。但基础的文案输出、代码编写、图案渲染等等,不涉及研究创造灵感的内容,大模型可以在成本可控的基础下实现。
“下一步,语言大模型的推理成本一定能做到比搜索还要低,而且还能保证即时性。”朱雷表示。
大模型的训练成本也并不像想象中那么高不可攀,朱雷告诉亿邦动力:“训练成本与训练所用数据质量有很大关系,因为我们团队有数据优势,元语大模型从零开始做一次训练的成本能做到千万人民币量级,后续调整数据训练优化成本可控制在百万人民币量级,训练的数据和方向不同,成本差别很大。算力上,我们目前获得了国内头部云计算厂商的大量资源支持。”
正是如此,大模型让万能的个人语音助理成为可能。
“生成文案、查询知识是最基础的,大模型也可以跟你进行实时聊天,加上语音识别、虚拟人、虚拟场景、RPA引擎,可以完成即时对话、快速生成视频、语音交互等工作。”朱雷告诉亿邦,在引入了图片、语音、视频等更多模态技术之后,大模型能将当下互联网应用进行全面改造。互联网市场由此将进入新时代。
因此,即便仅仅是语言大模型产品,也能对当下整个互联网行业的底层产品逻辑带来根本性改造,互联网从交互到服务再到商业模式等等将会迎来新一轮全面升级。
参数就是AI智慧的化身,百亿级以上参数模型具有“涌现”能力
作为一个高新技术领域,不仅给从业者限制了极高的进入门槛,也在大众面前树起了难以翻越的理解门槛。
模型是什么?大模型与小模型有什么区别?模型里都在比对的参数量又是什么?这是让普通人迷糊的地方。
通俗来讲,模型就是自然语言编码、采样、训练、推理的一整套计算机系统。
“人类交流的自然语言、现实环境中的物品声音,计算机识别的前提是进行编码采样,然后计算机通过统计大量数据里词汇图形的概率,提取出各种知识,也就是特征。”朱雷这样解释模型的运作流程。
这个是模型的核心,不过AI模型分为训练和推理两部分,上述部分属于模型可以自动完成的训练部分,普通用户使用的主要是企业训练好的模型提供的推理服务。毕竟AI模型没有自主意识,只能统计出自然语言不同词汇句子的组合关联概率,再好的模型最终的推理结果不符合用户需求,例如回答不相干、答案错误,对于用户来说都是不可接受的。
即便是回答完美,推理耗费了太多的计算资源,成本也是难以接受的。这个时候就需要人类给出反馈,来教这些模型,哪些出错了需要针对性修改。
所谓大模型和小模型的区别,大模型可以自动编码采样海量数据进行监督学习和无监督学习,来提取各种知识特征,也就是完全可以通过自主学习来总结知识和技能。而小模型则大量依赖人工提前设定好编码,再对特定领域数据进行统计学习,如此一来小模型能学习到的知识和技能就有明确限制。
“小模型的参数量不会超过亿级,普通小模型能达到万级就不错了。”朱雷表示,“AI模型上,2017年Transformer模型出来之后,基于此打造的大部分都是大模型。”
Transformer模型为行业提供了优质好用的编码采样算法,因此大大提升了AI模型的数据编码能力。编码采样能力的提高,让模型有能力训练出更多的参数。不过这其中也有一个例外,那就是Google的BERT模型,BERT模型虽然也引入了Transformer模型,虽然也更擅长做数据编码,但因为在前期设计时基于效率考虑,其用途集中在数据处理分类上,所以其参数量级限制在了亿级。
除了BERT模型之外,Google的T5和OpenAI的GPT是当下知名模型路线,基于这两个路线打造出来的模型,才称得上货真价实的大模型。由于这三个模型的核心是解决AI模型中的训练问题,因此BERT、GPT与T5也并称为三大预训练模型。
“元语大模型在方法上与T5类似。”朱雷表示,“T5是encoder-decoder架构,既可以做文本数据的理解,同时生成方面效果也非常好。”
如果能理解上述内容,那就很容易理解参数是什么。
“大模型的参数可以简单类比为大脑的‘神经元’,‘神经元’越多大脑就越聪明,通用型和学习能力就越强,就会涌现出更强的联想、推理及海量内容的学习。”朱雷告诉亿邦动力,参数涉及的能力维度非常复杂,“神经元”是一个比喻性的解释,并不是严谨答案,适合普通用户用来理解AI大模型。
除此之外,强化学习、提示学习、人类反馈、Fine-tuning微调、特征提取等专业技术名词在此不再展开。
提供API大量免费额度,元语要做大生态靠服务做商业化
朱雷反复强调,元语在相当长一段时间内都聚焦在自然语言大模型业务上,不会为了跟风盲目拓展图片、视频业务,“我们的目标是实现‘ChatGPT’等前沿语言大模型的全面国产化。语言大模型的生态已经足够大了,做好业务聚焦很重要。”
当下,OpenAI已经面向企业推出付费版ChatGPT API,在商业模式上做出了初步试探。不过朱雷表示,元语会长期提供大量的API免费额度,并且模型也会持续进行开源。“现在处于大模型生态发展初期,我们选择用开放的方式,鼓励更多开发者参与进来,壮大大模型在不同领域的落地应用生态。”
他表示,即便元语API免费,市场上还存在大量变现空间,“面向企业用户提供私有化部署服务、专业领域的预训练服务,进一步的SaaS订阅服务模式都可以做,让开发者初期阶段使用API付费是对开发者非常不友好的方式,我们不会做。”
不过,大模型的开发是一个极度耗费时间和资金的事情。元语成立之前核心成员从事大模型业务已有四年,创始人徐亮和张轩玮在业内有着很强的影响力,团队和技术都不需要从零开始,相比同类初创团队至少能够节省半年团队内耗时间。更重要的是,元语团队在过去四年里已经积累下大量用于大模型训练的优质数据,并与各方开发者保持着良好的数据合作。
“我们有一套成熟的数据清洗提纯系统,能够保障数据质量。还积累了一批优质数据,更多优质数据的获取方案也正在跟有关机构讨论。要知道数据质量好也能节省(大模型)训练轮次,也就能大幅节省时间和成本,这正是我们最大的优势,也是我们有信心赶上ChatGPT的原因。”朱雷表示。
实际上,在AI行业里,数据的处理也已经形成了成熟行业,数据标注也已成为固定职业。目前,元语已经开始组建了自己的数据标注团队,来提升自家大模型的人类反馈强化学习,优化最终回答效果。
当下,元语大模型还在进一步升级中,面向C端用户的元语小程序将在新一轮的技术升级后,重新上线,元语大模型API接口会长期向开发者提供大量的免费额度,目前开发者数量已有十万以上 。
“提高知识流通和获取的效率,降低知识创造的门槛,真正实现知识面前人人平等”朱雷这样总结元语的使命。
文章来源:亿邦动力