2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

对标 OpenAI GPT-4,MiniMax 国内首个 MoE 大语言模型全量上线

  • 2024-01-16
    北京
  • 本文字数:1938 字

    阅读完需:约 6 分钟

大小:1.00M时长:05:50
对标OpenAI GPT-4,MiniMax 国内首个 MoE 大语言模型全量上线

1 月 16 日,InfoQ 获悉,经过了半个月的部分客户的内测和反馈,MiniMax 全量发布大语言模型 abab6,该模型为国内首个 MoE(Mixture-of-Experts)大语言模型。

 

早在上个月举办的数字中国论坛成立大会暨数字化发展论坛的一场分论坛上,MiniMax 副总裁魏伟就曾透露将于近期发布国内首个基于 MoE 架构的大模型,对标 OpenAI GPT-4。

 

在 MoE 结构下,abab6 拥有大参数带来的处理复杂任务的能力,同时模型在单位时间内能够训练足够多的数据,计算效率也可以得到大幅提升。改进了 abab5.5 在处理更复杂、对模型输出有更精细要求场景中出现的问题。

为什么选择 MoE 架构?

 

那么,MoE 到底是什么?MiniMax 的大模型为何要使用使用 MoE 架构?

 

MoE 架构全称专家混合(Mixture-of-Experts),是一种集成方法,其中整个问题被分为多个子任务,并将针对每个子任务训练一组专家。MoE 模型将覆盖不同学习者(专家)的不同输入数据。

 

图片来源:https ://arxiv.org/pdf/1701.06538.pdf

 

有传闻称,GPT-4 也采用了相同的架构方案。

 

2023 年 4 月,MiniMax 发布了开放平台。过去半年多,MiniMax 陆续服务了近千家客户,包括金山办公、小红书、腾讯、小米和阅文在内的多家头部互联网公司,MiniMax 开放平台平均单日的 token 处理量达到了数百亿。

 

MiniMax 在官微中发文称:“这半年多来,客户给我们提供了很多有价值的反馈和建议。例如,大家认为我们做得比较好的地方有:在写作、聊天、问答等场景中,abab5.5 的表现不错,达到了 GPT-3.5 的水平。”

 

但是和最先进的模型 GPT-4 相比,仍有明显差距。这主要体现在处理更复杂的、对模型输出有精细要求的场景时,存在一定概率违反用户要求的输出格式,或是在推理过程中发生错误。当然,这不仅是 abab5.5 的问题,也是目前除 GPT-4 以外,几乎所有大语言模型存在的缺陷。

 

为了解决这个问题,进一步提升模型在复杂任务下的效果,MiniMax 技术团队从去年 6 月份起开始研发 MoE 模型——abab6 是 MiniMax 的第二版 MoE 大模型(第一版 MoE 大模型已应用于其 C 端产品中)。

 

虽然 MiniMax 并未透露 Abab6 的具体参数,但据 MiniMax 透露,Abab6 比上一个版本大了一个量级。更大的模型意味着 abab6 可以更好的从训练语料中学到更精细的规律,完成更复杂的任务。

 

但仅扩大参数量会带来新的问题:降低模型的推理速度以及更慢的训练时间。在很多应用场景中,训练推理速度和模型效果同样重要。为了保证 abab6 的运算速度,MiniMax 技术团队使用了 MoE  (Mixture of Experts 混合专家模型)结构。在该结构下,模型参数被划分为多组“专家”,每次推理时只有一部分专家参与计算。基于 MoE 结构,abab6 可以具备大参数带来的处理复杂任务的能力;计算效率也会得到提升,模型在单位时间内能够训练足够多的数据。

 

目前大部分大语言模型开源和学术工作都没有使用 MoE 架构。为了训练 abab6,MiniMax 还自研了高效的 MoE 训练和推理框架,也发明了一些 MoE 模型的训练技巧。到目前为止,abab6 是国内第一个千亿参数量以上的基于 MoE 架构的大语言模型

测评结果


为了对比各模型在复杂场景下的表现,MiniMax 对 abab6、abab5.5、GPT-3.5、GPT-4、Claude 2.1 和 Mistral-Medium 商用进行了自动评测。在简单的任务上,abab5.5 已经做得比较好,因此 MiniMax 选择了三种涵盖了较复杂的问题的评测方法:

 

IFEval:这个评测主要测试模型遵守用户指令的能力。在测试时,提问者会问模型一些带有约束条件的问题,例如“以 XX 为标题,列出三个具体对方法,每个方法的描述不超过两句话”,然后统计有多少回答严格满足了约束条件。

 

MT-Bench:这个评测衡量模型的英文综合能力。提问者会问模型多个类别的问题,包括角色扮演、写作、信息提取、推理、数学、代码、知识问答。MiniMax 技术团队会用另一个大模型(GPT-4)对模型的回答打分,并统计平均分。

 

AlignBench:该评测反映了模型的中文综合能力测试,测试形式与 MT-Bench 类似。

 

测评及对比结果如下:



注:对比模型均选择各自最新、效果最好的版本,分别为 Claude-2.1、Mistral-Medium 商用、GPT-3.5-Turbo-0613、GPT-4-1106-preview;GPT-3.5-Turbo-0613 略好于 GPT-3.5-Turbo-1106 。abab6 是 1 月 15 号的版本。

 

可以看出,abab6 在三个测试集中均明显好于前一代模型 abab5.5。在指令遵从、中文综合能力和英文综合能力上,abab6 大幅超过了 GPT-3.5。和 Claude 2.1 相比,abab6 也在指令遵从、中文综合能力和英文综合能力上略胜一筹。相较于 Mistral 的商用版本 Mistral-Medium,abab6 在指令遵从和中文综合能力上都优于 Mistral-Medium,在英文综合能力上与 Mistral- Medium 旗鼓相当。

 

如果想体验 MiniMax MoE 大模型,可访问 MiniMax 开放平台官网:api.minimax.chat

 

ps:MiniMax 方面称,模型还在持续训练中,远没有收敛,欢迎大家反馈。

2024-01-16 14:257515
用户头像
李冬梅 加V:busulishang4668

发布了 1200 篇内容, 共 823.9 次阅读, 收获喜欢 1311 次。

关注

评论

发布
暂无评论
发现更多内容

企业如何从0到1搭建BI系统

葡萄城技术团队

BI 仪表盘识别 可视化数据

助力企业高效率办公,华为云桌面必不可少

科技怪授

华为云 桌面云 云桌面

【通知】OBCA考试收费调整公告

OceanBase 数据库

办公无界,看华为云桌面如何助企业上“云”

科技怪授

华为云 桌面云 云桌面

华为云CDN为用户提供专业全面的加速服务

秃头也爱科技

Student Management System

David

#架构实战营 极客时间架构训练营

AAX增添新网关,满足全球用户需求

股市老人

招聘软件哪个最好用?

优秀

招聘系统

从幻想走向科学:人类操纵大脑的条条大路

脑极体

华为云桌面,随时随地助力企业轻松办公

科技怪授

华为云 桌面云 云桌面

限时免费领票|来云栖大会,看OceanBase 4.0最新进展

OceanBase 数据库

分布式事务-消息队列实现分布式事务

zarmnosaj

10月月更

IoTDB 的架构、安装启动方法与数据模式 | 小白教程文档(二)

Apache IoTDB

数据库 IoTDB Apache IoTDB

网络请求:Vue_Axios学习

Studying_swz

Vue 10月月更

DevOps | 如何快速提升团队软件开发成熟度,快速提升研发效能?

laofo

DevOps 研发效能 CMMI 敏捷研发 绩效考核

换行符不一致问题终极处理方案——gitattributes

甜点cc

JavaScript 前端 代码规范 10月月更

跨库分页

zarmnosaj

10月月更

华为云桌面,助力企业扬帆起航

科技怪授

华为云 桌面云 华为云桌面

一文带你更了解Java中的方法

陌上

Java、 编程、 10月月更

Java的一维数组和二维数组

陌上

数据结构 Java、 10月月更

知识分享|To B产品的帮助中心页面制作方法

Baklib

同样是网络加速,企业为何愿意选择华为云CDN?

秃头也爱科技

对比学习算法在转转的实践

转转技术团队

人工智能 推荐算法 对比学习

Python在接口测试中的应用

芯动大师

学习方法 “程”风破浪的开发者 Python接口测试

Java | static和不可变关键字final

陌上

编程 Java、 10月月更

汽车云服务应用场景系列报告——自动驾驶仿真测试云服务行业图谱

易观分析

云服务 汽车

Baklib产品知识库|为什么说客户体验非常重要?

Baklib

数据共享:VueX学习

Studying_swz

Vue 10月月更

C# 关于程序退出问题学习

IC00

C# 学习 程序员 上位机 10月月更

现代化SDLC与架构评审

I

安全架构设计 SSDLC

鸿蒙开发实例|对象关系映射数据库

TiAmo

华为 华为云 10月月更

对标OpenAI GPT-4,MiniMax 国内首个 MoE 大语言模型全量上线_生成式 AI_李冬梅_InfoQ精选文章