阿里达摩院发布万亿参数AI大模型M6，“神经元”达人类10倍，初具认知与创造能力

6 月 25 日，阿里巴巴达摩院发布“低碳版”巨模型 M6，在全球范围内首次大幅降低了万亿参数超大模型训练能耗，更加符合业界对低碳、高效训练 AI 大模型的迫切需求。通过一系列突破性的技术创新，达摩院团队仅使用 480 卡 GPU，即训练出了规模达人类神经元 10 倍的万亿参数多模态大模型 M6，与英伟达、谷歌等海外公司实现万亿参数规模相比，能耗降低超八成、效率提升近 11 倍。

一、M6 大模型是什么？

M6 是阿里达摩院研发的超大规模多模态预训练模型，英文全称是 MultiModality-to-MultiModality Multitask Mega-transformer，6 个 M，简称 M6。

顾名思义，M6 大模型主打多模态、多任务能力，其目标是打造全球领先的具有通用性的人工智能大模型。

今年 3 月，达摩院发布了国内首个千亿参数多模态大模型 M6，引发海外关注。OpenAI 前政策主管 Jack Clark 公开点评道：“这个模型的规模和设计都非常惊人。这看起来像是众多中国的 AI 研究组织逐渐发展壮大的一种表现。”

今日，阿里 M6 宣布升级至万亿参数，并在全球范围内首次大幅降低了万亿参数超大模型训练能耗，更加符合业界对低碳、高效训练 AI 大模型的需求。

通过一系列突破性的技术创新，达摩院团队仅使用 480 卡 V100 32G GPU，即训练出了规模达人类神经元 10 倍的万亿参数多模态大模型 M6，与英伟达、谷歌等海外公司实现万亿参数规模相比，能耗降低超八成、效率提升约 11 倍。

这一技术突破将极大降低万亿模型训练门槛，让大模型研究和工业化落地进入更加普惠的时代。

以下为 M6 发展历程：

2021 年 1 月 —— M6 百亿参数模型达成，国内首个百亿规模多模态大模型
2021 年 2 月 —— M6 千亿参数模型达成，国内首个千亿规模多模态大模型
2021 年 5 月 —— M6 万亿参数模型达成，全球范围内首次大幅降低了万亿参数超大模型训练能耗，且成为国内首个实现商业化落地的多模态大模型

二、M6 万亿大模型有哪些亮点？

AI 大模型更低碳高效：提升了超大规模预训练模型的资源利用率与训练效率，沉淀大模型高效训练的能力。对比 Nvidia(3072 A100 GPU/万亿)、Google(2048 TPU/1.6 万亿)，阿里此次仅使用 480 卡 V100 32G GPU 就实现了高效的万亿 M6 模型的训练，能耗降低超过 8 成，且效率提升近 11 倍。

AI 创造力再次升级：M6 拥有超越传统 AI 的认知和创造能力，擅长绘画、写作、问答，在电商、制造业、文学艺术等诸多领域拥有广泛应用前景。OpenAI DALL·E 生成图片清晰度达 256×256，M6 将图片生成清晰度提升至 1024×1024。更大的模型带来了更强的创造力和可直接工业化应用的前景。

AI 大模型首次商用：M6 成为国内首个实现商业化落地的多模态大模型。经过一段时间的试用，M6 将作为 AI 助理设计师正式上岗阿里新制造平台犀牛智造，通过结合潮流趋势进行快速设计、试穿效果模拟，有望大幅缩短快时尚新款服饰设计周期。M6 还已应用于支付宝、淘宝等平台，参与跨模态搜索、文案撰写、图片设计等工作。

三、M6 万亿模型有哪些关键技术突破？

从开始研发大模型起，阿里 M6 团队便格外重视 GreenAI，即提升超大规模预训练模型的资源利用率与训练效率，沉淀大模型高效训练的能力。这样更多人可用较少的成本训练或者应用大模型。

针对大模型训练资源消耗过高的难题，达摩院联合阿里云机器学习 PAI 平台、EFLOPS 计算集群等团队改进了 MOE（Mixture-of-Experts）框架，创造性地通过专家并行策略，大大扩增了单个模型的承载容量。同时，通过加速线性代数、混合精度训练、半精度通信等优化技术，达摩院团队大幅提升了万亿模型训练速度，且在效果接近无损的前提下有效降低了所需计算资源。

他们首先更细致地探索了 MoE 在预训练模型中的各类超参对模型收敛速度和精度的影响，包括 top-k 的 k 值、capacity 对 load balance 的影响、load balance 本身对效果的影响。基于这一系列的观察，他们提出了一种 Expert Prototyping 的方法，使用分组 MoE 的形式，让不同组的 MoE 通过组合能在参数规模不变的情况下，增大模型的表达空间。

他们观察到在不同规模的模型上，分组 MoE 都能取得比 baseline 更好的效果。相比于单组 switch routing 的串行实现方式，分组 MoE 可以达到更好的加速效果，并且我们发现他在更大规模的模型上优势会变得更大，如下图：

在机器方面，M6 团队最终采用的是在 Hippo 混布集群搭建模型的方案，利用的是 480 个单机单卡的 NVIDIA V100-32GB 的机器，通信为带宽为 100Gb RoCEv2 的 RDMA 网络，在 XDL 上提交任务。

四、M6 已有哪些商业化应用？

AI 设计师与智能新制造：经过试用期，M6 将作为 AI 助理设计师正式上岗阿里新制造平台犀牛智造，通过结合潮流趋势进行快速设计、试穿效果模拟，有望大幅缩短快时尚新款服饰设计周期。随着实践经验的增长，M6 设计的能力还将不断进化。

结合阿里的电商背景，M6 团队希望通过 M6 大模型优异的文到图生成能力，和电商领域产业链深度融合，挖掘潜在的应用价值。具体来说，他们已深入到从服饰设计 &生成、线上展示 &测款的完整链路，期望利用 M6 的高清图像生成能力，缩短服饰企业的存货周转率，帮助商家对潮流趋势有更好的掌控力和更快速的反应力。

此前 OpenAI DALL·E 生成图片清晰度达 256×256，M6 则将图片生成清晰度提升至 1024×1024。