【亿邦原创】2024年1月16日,在智谱AI技术开放日上,智谱AICEO张鹏发布新一代底层大模型GLM-4。据介绍,GLM-4性能相比GLM-3提升60%,逼近GPT-4(2023年11月6日最新版本效果)。同时智谱AI发布了GLMs,为所有开发者提供AI智能体定制能力,依靠简单的prompt指令创建个性化GLM智能体。
自从2023年6月ChatGLM-2发布以来,智谱AI保持三四个月一次的迭代速度,2023年10月ChatGLM-3发布,2024年1月发布GLM-4。“国内研发的大模型,无论是在规模还是核心能力上,与世界先进水平的差距大约在一年左右,正如2023年年初我们承诺的,2023年底我们要实现逼近GPT4性能的全栈自主创新的GLM-4。”张鹏在现场表示。
基础能力方面,张鹏在现场介绍了GLM-4在各项评测集上的最终得分。
MMLU(Massive Multitask Language Understanding):大规模多任务语言理解测试,主要评估大模型的对于知识的理解,目前GLM-4是81.5分,GPT-4得分86.4分,目前能达到GPT4的94%;
GSM8K(Grade School Math 8K):主要是测试数学能力,基本就是小学数学和初中数学水平。GLM-4得分87.6,达到GPT-4的95%水平;
MATH:主要是数学测试,但会更难更复杂一点,涉及到一些较难的逻辑推理,GLM-4得分47.9,达到GPT-4的91%水平;
BBH(Big Bench Hackathon):偏综合测试,有一堆综合类的任务,比如翻译、语言理解、逻辑推理等内容。GLM-4得分82.3,达到GPT-4的99%水平;
HellaSwag:偏常识测试的任务,GLM-4得分85.4,达到GPT-4的90%水平;
HumanEval:纯粹的编程任务。评测大模型在算法、代码、编程层面的效果。GLM-4得分72,达到GPT-4的100%水平。
智谱AI推出的另一个重磅产品是GLMs。
OpenAI曾推GPTs,前几天上线了GPT store,被认为是下一代APP store。现在智谱也正式上线了他们的GLMs和智能体中心。
而GLMs的创建,也和GPTs一样,直接用自然语义来描述,就可以生成一个智能体,还可以进行分享。
此后还会有相应的创作者分成计划。
同时,智谱AI还推出GLM-4-All Tools,能够完成用户意图理解-复杂指令规划-自由调用GLM生态的多种模型能力。
All Tools是ChatGPT上的一个很好用的工具,类似一个小型Agent,可以在一个任务里同时调用联网、画图、识图、代码解释器。智谱AI也在国内率先推出All Tools。
张鹏认为,2018年到2020年是大模型算法的创新年,先后出现BERT、GPT-1/2等无标注自监督学习的大规模预训练模型算法。2020~2022年是一场模型之争,GPT-3是一个新起点,开启了基座模型的全新时代。
2023年,大模型的发展迎来产业化落地,在金融、能源、教育等方面进行尝试。这一年智谱AI也取得了不错的商业成绩。目前,智谱AI已经拥有2000多家合作伙伴,其中有200多家企事业单位和智谱AI进行了深度模型共创和共建。合作伙伴涵盖了金融、互联网、制造、能源等众多不同产业行业,也充分体现了GLM通用基础大模型的泛用性和易用性。
“围绕GLM这样一个预训练框架我们开发了一系列模型,形成了一个相对完整的大模型全栈技术体系架构,功能覆盖了多模态、代码生成、搜索增强和对话。对标着OpenAI的全栈大模型生态,我们努力赶上。同时,我们也谦虚的承认自己还存在一定差距,但不懈努力让我们开始逐渐形成我们自己的创新特色,也借助于此逐渐缩小与顶尖水平的差距。”张鹏介绍。
人工智能大模型已成为国际科技竞争“必争之地”,基础大模型的国产全自研、自主可控也引人关注。同时,大模型的快速发展给全球科技创新带来全新挑战:超大规模算力需求、超大规模数据需求、全新模型训练算法与框架、安全与可信的软硬系统,大模型的应用需求也更加动态和多样化,要求对大模型的不同层次进行深入的研究。
“这是个全新的人工智能科学难题,但也是一个我们赶超国际领先水平的机会,发展媲美人类智能的人工智能系统已经成为人工智能领域研究的一个国际共识。”张鹏认为。
文章来源:亿邦动力