今天很高兴再次来到天津参加“世界智能产业博览会”。
过去一年,大模型的进步让信息分发获取、内容生产、全自然的交互等,都有了全新进展。这些不仅改变了科研范式,还在改变着产业形态和竞争格局。
所以,高盛去年预测,通用人工智能将推动全球年均GDP增长7%;Gartner预测,到2026年现在80%企业都要用到通用人工智能,而今天这个数字是5%左右。
今年 3 月份,政府工作报告首次提出“人工智能+”。早在1月30号,科大讯飞就推出了中国首个基于全国产算力训练的全民开放大模型。所谓全民开放大模型,就是大家可以下载、随时使用的星火3.5大模型。
星火4.0全面对标GPT-4 Turbo
今天国际上最好的、综合实力最高的,还是 GPT-4 Turbo。
我们可以看到,根据中科院人工智能产宣创新联盟和认知智能国家重点实验室,给出的 7 个维度、 481 个测试项,完全用真实数据随机测试的结果显示,我们已经非常接近 GPT-4 Turbo 的最新水平。
过几天,我们将发布星火 4.0大模型,全面对标GPT-4 Turbo当前水平。这个对标,不仅是中文,还包括英文写作等相关能力。
当然,今天看起来我们与美国最好的大模型仅一步之遥,但如果OpenAI发布GPT-5 ,我们的差距就会进一步拉大到一年左右。
为什么?因为人家算力更多,数据更多,模型更大。
但是我们有信心继续快速追赶,确保中国通用大模型底座不会与美国出现代差。只要大模型底座能跟上,我们在各个专业领域和垂直行业,就有可能实现超越。
给大家举几个例子,今年高考后,讯飞星火在中英文的作文和数学测试题方面,都处在领先地位。尤其是语文作文现在已经能达到 52 分。
6月7号中午,重庆日报的“新重庆客户端”,就拿星火大模型写了一篇《当AI知道今年高考作文讨论自己,于是TA马上写了一篇……》,引起了整个人工智能专家组和市民的极大的关注,都认为写得非常好。
去年年初, GPT-3.5通过了谷歌二级程序员测试,现在我们星火大模型的代码能力,已经全面超过了当时的 GPT 3.5,并与 GPT 4 非常接近。在代码设计、生成以及测试等方面,都可以大幅提效。过去一年,我们代码采纳率已从 30% 提升到了 52% 以上。
今天的产业数字化和数字产业化,代码和软件定义一切。代码能力,其实是未来大模型赋能产业的一个核心能力。
在大模型推动的知识学习中,大家都非常关注长文本能力。
最近,我们不仅是文本和图片,还可以是录音。比如,今天上午两三个小时的演讲录音和PPT,丢给我们的星火大模型,马上可以跟它提各种问题,比如什么是有温度的智能体。
我们已经做了一批智能体
那么,智能体是什么概念?
通过大模型的语义理解和任务规划,你给它一个任务,它马上就知道这个任务要对应到哪些任务内容。
每个任务应该调用什么样的工具,这些工具在内部和外部调取什么样的信息,最后完成任务并汇总结果。
我们现在已经做了一批的智能体。
比如,我们中标了国人集团的大模型后,其中一个功能已在国资委网站上发了,就是招标助手。
它可以自动识别标书文件的关键内容,自动去看投标企业资质怎么样,价格分怎么样,最后给出来评标结果。
过程中,还可以自动去查各种证照文件是否真实、是否被修改过,把内外很多信息全部打通了,这就是智能体。
中国一定要建立
自主可控的大模型底座能力
过去一年,大家看到了很多国际上的热点。
比如去年9月份的GPT-4V(有视觉功能的 GPT-4)、 11 月的 OpenAI-whisper (语音识别大模型)、今年2月份的Sora,和5月份的 GPT-4o。
看起来很热闹,实际上本质上还是 GPT-4 的底座能力。没有这个底座的理解能力和生成能力,就不可能有上面这些热点。
比如 Sora ,其实根本不是对物理世界的认知又上了一个台阶,本质上是用GPT-4V来对视频打标签,从而更容易训练。
原来靠人工标签,工作量太大。当然,他们还用了 GPT 的框架,对视频的生成做了一些改写。
所以,中国一定要建立自主可控的底层通用大模型能力。在这个基础上,我们才可能有行业垂直赛道。
底层通用大模型能力达到最高的天花板后,再做剪枝或蒸馏,做出有各种各样的小模型,也能走在世界前列。
底层通用大模型,是中国这一波通用人工智能是否可以跟美国对标的核心点。
也就是说,有了底座能力的提升,中国所有人工智能研究在未来两年之内,都应该用大模型的逻辑重写一遍。
但原来很多垂直专业领域的技术与大模型结合,可以让我们超过美国通用大模型能达到的水平,这是“通”和“专”结合的过程。
现在中国已经有极少数底层通用大模型具备了紧紧跟随美国的能力。比如,今年1月份,星火语音大模型已经在 37 个主流语种上全面超越了他们。这37个语种,不是我们定义的,是国家定义的。
GPT-4o出来后,大家兴奋的是,他们把语音交互做到了极致;比较失望的是,它的理解能力并没有很大的提升,实际上是工程化的提高。
超拟人合成,像真人一样说话,随时可以打断的交互,以及两三百毫秒的反应,实际上是大概六七百毫秒。
这些,其实我们的语音大模型全部都在对标,而且很多东西是我们提出来的。比如,一句话复刻,你只要对着讯飞星火说一句话,马上就可以模仿你的声音。
去年新增 200 多万开发者团队
当然,大模型不是万能的。
我们可以看到,有些任务上通用模型能解决的很好,有些任务上则需要做定制优化,还有些任务其实挺难的。
比如,高难度的数学,需要复杂的长链条推理。相关知识问答和开放领域的智能体验,短期内还不太容易做到好用。所以,我们今天既有大模型应用落地课题,也有了持续研究和探索的方向。
比如在教育领域,我们在河西区打造的标杆,就成了教育部的全国标杆。在很多一线特别缺的小学科教学中,大模型都可以很好地赋能。比如科普、编程、信息课、口语老师、心理辅导等。
在我们的展厅,大家可以看到,孩子可以跟爱因斯坦、李白、祖冲之对话。原来孩子脑洞大开的问题,老师解答20%左右,现在有了星火大模型与中国科协的科普中国合作,现在基本上都可以回答,孩子的上课的手率从16%提到了73%。
在最热的能源行业,中国石油、中国能源集团、中国绿发,都在用星火大模型来提升人员相关的调度、管理和一线的相关安全等。
比如,合肥综合性国家科学中心能源研究院,是要做中国人造小太阳的。现在用我们的大模型赋能科研,已经有了很好的阶段性进展,今天10月份就会发布。我们跟科大做的化学家,原来要做1400 年的催化剂实验,现在两个礼拜就做出来了。
比如,在汽车出海领域,去年 500 万辆汽车出海,很多都用了我们的多语言能力。不仅是国内车企,最近大众跟讯飞星火已经合作发布了一系列的技术,他自认为测试效果已经超过了ChatGPT。
今天大模型落地,绝不能仅仅是后台的、纯软件的,还一定要落到实处。不能只是泛娱乐化,要能够实用,软硬件结合的、云边端结合。
今天我们有适合在手机上用的 1.3-2.6 B 模型,有适合在汽车上用的7- 10 B 模型,也有 13B 和175B 的模型,从几千万到上千亿、上万亿的都要有。如何帮大家用更小的计算成本和代价,实现更好的效果。这是中国大模型应用落地能否全球走在前列的关键课题。
我非常高兴,今天在能源、汽车,家电等领域,都有了很好的应用。中国第一个家电的大模型落地是海尔招标的,我们中标后,现在已经做得很好。目前,我们已经跟 20 多个行业,共同开发了行业大模型。一定是以行业为主,再用大模型来赋能。
再以星火 APP 为例,下载量已经超过一个亿,客户使用的最高峰不是周末,而是在工作日。高峰时段主要是工作日上午 9 点半,以及下午 3 点半到 4 点。
从讯飞开发者生态也能看到,过去一年,我们的人工智能开放平台上已经新增了 200 多万的开发者团队,海外开发者团队增长了260%多。大模型直接相关的 54 万开发者团队,其中一大半是企业而不是个人。
不只是做各种APP,还在工业生产、研产、供销、等各个环节做赋能。在天津,开发者团队数量也已经接近 10 万家了,我们正在积极打造北方深谷。
所以我说,每次到天津,即便声音嘶哑,也一样是两眼放光、充满激情,我们期待着跟大家一起拥抱这一次通用人工智能的浪潮,共同来解放现有生产力,释放每个人和每一个产业方向、每个企业的想象力,共同用人工智能建设美好天津。
注:文/i黑马,文章来源:i黑马(公众号ID:iheima),本文为作者独立观点,不代表亿邦动力立场。
文章来源:i黑马