成立一年,拿了大把融资,大模型“长文本路线”代表人物月之暗面(Moonshot AI)现在最关心的是什么?
——依然是“长”。
去年10月,月之暗面发布支持20万汉字输入的Kimi智能助手(下简称Kimi),彼时Claude-100k支持约8万字,GPT-4-32k支持约2.5万字。Kimi是全球市场上能够产品化使用的大模型服务中最长的上下文输入长度。
20万字的“胃口”,现在变成200万了。
这是什么概念呢。举个例子,目前微信读书上单本超过200万字的作品只有5部。
会议室里,月之暗面AI Infra负责人许欣然拿出了一个全本《倚天屠龙记》的复印版本——A4纸打印,叠起来几乎有一瓶350ml的怡宝纯净水的一半高,约100万字——还有一整个《甄嬛传》剧本,现在的Kimi Chat一次可以吃掉这俩。
这意味着什么?
如果把上下文长度理解成大模型的“精力”,那么现在Kimi能够一口气精读500个甚至更多数量的文件,帮助用户快速分析所有文件的内容,并且支持通过自然语言进行信息查询和筛选。在Kimi还是20万字输入长度的时候,它的能力界限还在50个文件左右。
比如你可以直接扔给Kimi 500份简历,然后让它把其中符合要求的人初筛出来。
每个文件也可以长一点。
英伟达GPT大会又要开场了,如果需要一些背景知识,你可以把英伟达过去几年的完整财报一次性扔给Kimi,让它成为一位临时的英伟达财务研究专家,来帮你分析总结英伟达历史上的重要发展节点。
甚至你可以把LLM库的源代码直接给Kimi,然后你将会收获一个大概懂大模型是怎么回事的同事——它了解这个代码库里的所有细节,还能快速梳理出代码的结构。
“有个1万小时定律,意思是投入1万小时的话在任何领域你都会成为一个专家,我们希望Kimi可以用10分钟完成同样的事。”许欣然说。
当然它也能做些不那么严肃的事,比如刚才提到的《甄嬛传》。
当我把全集几十万字的剧本传给Kimi, 然后提问剧本中有哪些细节表明甄嬛的孩子是果郡王的。Kimi竟然能在不同时间段、各个场景的故事情节里把甄嬛、果郡王的情感线以及关于孩子的真相理顺,堪比一个看了好几十遍电视剧的“甄”学家。
SimilarWeb数据显示,去年12月Kimi的周访问量还在10万次上下,到了1月下旬才突破40万,但是从春节开始访问量疾速攀升,到现在周访问量已经超过160万次。
然后Kimi收到的用户反馈也越来越多,从这些反馈来看,20万字很长,足够做很多更有价值的事——但还不够长。在尝试更复杂的任务,解读更长的文档时依然会遇到对话长度超出限制的情况。这也是Kimi的上下文长度需要继续提升的一个直接原因。
月之暗面相信长文本技术是大模型“登月计划”的第一步,关于大模型幻觉的问题,实用价值低的问题,本质上都是因为困在文本长度的限制里。甚至模型微调也只是目前文本长度有限情况下的权宜之计。
“所有问题都是文本长度的问题。如果你有10亿的context length(上下文长度),今天看到的问题都不是问题”。月之暗面CEO杨植麟在之前的采访中表示。
如果单单只是为了“变长”,办法很多。长文本最终要建立在lossless(信息不随着文本长度增加而损失)上才有意义。而无损的?上下文将会是通往AGI的关键基础技术。 某种程度上,绝对的文本长度是花架子,无损压缩的能力才能分模型的胜负。
“从word2vec到RNN、LSTM,再到Transformer,历史上所有的模型架构演进,本质上都是在提升有效的、无损的上下文?度。”杨植麟此前表示。
月之暗面方面透露,这次上下文长度从20万字扩展到200万字由于没有采用常规的渐进式提升路线,研发和技术团队遇到的技术难度也是指数级增加的。为了达到更好的?窗口无损压缩性能,团队从模型预训练到对?、推理环节均进行了原生的重新设计和开发。许欣然所领导的AI Infra层目前效率已经提升到了原来的3倍。
而无损上下文长度的线性变化最终会决定上层建筑的形态——也就是人们到底能用大模型做什么。
领域专家、可完成复杂多步任务的Agent、多模态模型。许欣然提到了这三个方向,或许这也会是忠于长文本路线的月之暗面未来的发展方向。
Kimi智能助手已支持200万字超?无损上下文,并于即日起开启产品“内测”。 对大模型超?无损上下文能力有需求的用户,可到Kimi智能助手网?版kimi.ai首?申请抢先体验。 之后,月之暗面会逐步开放更多用户来体验具备超?无损上下文能力的Kimi智能助手。
注:文/油醋,文章来源:品玩,本文为作者独立观点,不代表亿邦动力立场。
文章来源:品玩