广告
加载中

李开复官宣开源大模型Yi-34B:一边刷榜单 一边建生态

胡镤心 2023/11/06 14:06

【亿邦原创】11月6日,李开复博士带队创办的AI 2.0公司零一万物,正式开源发布首款预训练大模型Yi-34B。据悉,零一万物今年 3 月底官宣成立,六七月开始运营,李开复博士为创始人兼 CEO。

“Yi” 系列大模型的命名来自“一”的拼音,据介绍,“Y”上下颠倒,巧妙形同汉字的 “人”,结合AI里的i,代表Human+ AI。零一万物相信AI赋能推动人类社会前行,AI应本着以人为本的精神,为人类创造巨大的价值。

本次开源的Yi-34B预训练模型,在Hugging Face英文测试公开榜单Pretrained预训练开源模型排名中,以70.72的分数位列全球第一。

李开复博士表示:“零一万物坚定进军全球第一梯队目标,从招的第一个人,写的第一行代码,设计的第一个模型开始,就一直抱着成为‘World's No.1’的初衷和决心。我们组成了一支有潜力对标OpenAI、Google等一线大厂的团队,经历了近半年的厚积薄发,以稳定的节奏和全球齐平的研究工程能力,交出了第一张极具全球竞争力的耀眼成绩单。Yi-34B可以说不负众望,一鸣惊人。”

1、全球最长200K上下文窗口,处理40万字文本

此次开源的Yi-34B模型,将发布目前最长的、可支持200K超长上下文窗口(context window)版本,可以处理约40万汉字超长文本输入。OpenAI的GPT-4上下文窗口为32K,文字处理量约2.5万字。

在语言模型中,上下文窗口是大模型综合运算能力的金指标之一,对于理解和生成与特定上下文相关的文本至关重要,拥有更长窗口的语言模型可以处理更丰富的知识库信息,生成更连贯、准确的文本。

此外,在文档摘要、基于文档的问答等下游任务中,长上下文的能力发挥着关键作用,行业应用场景广阔。在法律、财务、传媒、档案整理等诸多垂直场景里,更准确、更连贯、速度更快的长文本窗口功能,可以成为人们更可靠的AI助理,让生产力迅猛提升。然而,受限于计算复杂度、数据完备度等问题,上下文窗口规模扩充从计算、内存和通信的角度存在各种挑战,因此大多数发布的大型语言模型仅支持几千tokens的上下文长度。

为了解决这个限制,零一万物技术团队实施了一系列优化,包括:计算通信重叠、序列并行、通信压缩等。通过这些能力增强,实现了在大规模模型训练中近100倍的能力提升,也为Yi系列模型上下文规模下一次跃升储备了充足“电力”。

Yi-34B的200K上下文窗口直接开源,不仅能提供更丰富的语义信息,理解超过1000页的PDF文档,让很多依赖于向量数据库构建外部知识库的场景,都可以用上下文窗口来进行替代。Yi-34B的开源属性也给想要在更长上下文窗口进行微调的开发者提供了更多的可能性。

2、AI Infra实现40%训练成本下降

AI Infra(AI Infrastructure人工智能基础架构技术)主要涵盖大模型训练和部署提供各种底层技术设施,包括处理器、操作系统、存储系统、网络基础设施、云计算平台等等,是模型训练背后极其关键的“保障技术”,这是大模型行业至今较少受到关注的硬技术领域。

李开复曾经表示,“做过大模型Infra的人比做算法的人才更稀缺”。

在打造“World's No.1"梯队时,超强的Infra能力是大模型研发的核心护城河之一。如果说训练大模型是登山,Infra的能力定义了大模型训练算法和模型的能力边界,也就是“登山高度”的天花板。

在芯片、GPU等算力资源紧缺的当下,安全和稳定成为大模型训练的生命线。零一万物的Infra技术通过“高精度”系统、弹性训和接力训等全栈式解决方案,确保训练高效、安全地进行。

凭借AI Infra支撑,零一万物团队Yi-34B模型训练成本实测下降40%,实际训练完成达标时间与预测的时间误差不到一小时,进一步模拟上到千亿规模训练成本可下降多达50%。

截至目前,零一万物Infra能力实现故障预测准确率超过90%,故障提前发现率达到99.9%,不需要人工参与的故障自愈率超过95%,有力保障了模型训练的顺畅进行。

在Yi开源模型的全球首发日,李开复也宣布,在完成Yi-34B预训练的同时,已经旋即启动下一个千亿参数模型的训练。“零一万物的数据处理管线、算法研究、实验平台、GPU资源和AI Infra都已经准备好,我们的动作会越来越快”。

3、打造更多ToC Super App,培育新型“AI-first”创新生态

零一万物认为,34B的模型尺寸在开源社区属于稀缺的“黄金比例”尺寸。

相比目前开源社区主流的7B、13B等尺寸,34B模型具备更优越的知识容量、下游任务的容纳能力和多模态能力,也达到了大模型 “涌现”的门槛。

接下来,零一万物将基于Yi系列大模型,打造更多To C超级应用。

李开复强调,“AI 2.0是有史以来最大的科技革命,它带来的改变世界的最大机会一定是平台和技术,正如PC时代的微软Office,移动互联网时代的微信、抖音、美团一样,商业化爆发式增长概率最高的一定是ToC应用。零一万物邀请开发者社群跟我们一起搭建Yi开源模型的应用生态系,协力打造AI 2.0时代的超级应用。”

目前,Yi系列模型已在Hugging Face、ModelScope、GitHub三大全球开源社区平台正式上线,同时开放商用申请,给开发者在使用LLM的过程中提供更多、更优质的选择。

本次开源的基座模型包括200K上下文窗口的基座模型,基座模型进行了比较均衡的IQ和EQ的配置,保留了后续进行不同方向微调的可能性。

为了能让语言模型有更好的应用效果,广大开发者可以基于基座模型进行微调,GitHub 01Yi开源网页上已经提供了简单的微调代码,同时模型和主流语言模型微调框架兼容,开发者可以自行进行适配。

接下来,零一万物还将基于Yi基座模型,快节奏开源发布一系列的量化版本、对话模型、数学模型、代码模型和多模态模型等,邀请开发者积极投入,共同促进语言模型开源社区的繁荣发展,培育新型“AI-first”创新生态体系。

文章来源:亿邦动力

广告
微信
朋友圈

这么好看,分享一下?

朋友圈 分享
+1
+1
微信好友 朋友圈 新浪微博 QQ空间
关闭
收藏成功
发送
/140 0