【亿邦原创】2024年1月16日,MiniMax发布大语言模型abab6,这是国内首个MoE(Mixture of Experts混合专家模型)大语言模型。在 MoE 结构下,abab6 拥有大参数带来的处理复杂任务的能力,同时模型在单位时间内能够训练足够多的数据,计算效率也可以得到大幅提升。改进了 abab5.5 在处理更复杂、对模型输出有更精细要求场景中出现的问题。
早在上个月举办的数字中国论坛成立大会暨数字化发展论坛的一场分论坛上,MiniMax副总裁魏伟就曾透露将于近期发布国内首个基于MoE架构的大模型,对标OpenAI GPT-4。经过了半个月的部分客户的内测和反馈,abab6上线。
什么是MOE(Mixture of Experts混合专家模型)?
混合专家模型是一种集成方式,整个问题被分为多个子任务,并将针对每个子任务训练一组专家。而模型参数也被划分为多组“专家”,每次推理时只有一部分专家参与计算。基于MoE结构,abab6可以具备大参数带来的处理复杂任务的能力;计算效率也会得到提升,模型在单位时间内能够训练足够多的数据。
2023年 4月,MiniMax发布了开放平台。2023年6月,开始研发MoE(Mixture of Experts混合专家模型)模型。目前大部分大语言模型开源和学术工作都没有使用MoE架构。为了训练abab6,MiniMax自研了高效的MoE训练和推理框架,也发明了一些MoE模型的训练技巧。到目前为止,abab6是国内第一个千亿参数量以上的基于MoE架构的大语言模型。
文章来源:亿邦动力