阿里达摩院发布万亿参数AI大模型M6，“神经元”达人类10倍，初具认知与创造能力_开源_阿里达摩院

限时领｜《AI 百问百答》专栏课+实体书（包邮）！了解详情 



 写点什么

阿里达摩院发布万亿参数AI大模型M6，“神经元”达人类10倍，初具认知与创造能力

6 月 25 日，阿里巴巴达摩院发布“低碳版”巨模型 M6，在全球范围内首次大幅降低了万亿参数超大模型训练能耗，更加符合业界对低碳、高效训练 AI 大模型的迫切需求。通过一系列突破性的技术创新，达摩院团队仅使用 480 卡 GPU，即训练出了规模达人类神经元 10 倍的万亿参数多模态大模型 M6，与英伟达、谷歌等海外公司实现万亿参数规模相比，能耗降低超八成、效率提升近 11 倍。

一、M6 大模型是什么？

M6 是阿里达摩院研发的超大规模多模态预训练模型，英文全称是 MultiModality-to-MultiModality Multitask Mega-transformer，6 个 M，简称 M6。

顾名思义，M6 大模型主打多模态、多任务能力，其目标是打造全球领先的具有通用性的人工智能大模型。

今年 3 月，达摩院发布了国内首个千亿参数多模态大模型 M6，引发海外关注。OpenAI 前政策主管 Jack Clark 公开点评道：“这个模型的规模和设计都非常惊人。这看起来像是众多中国的 AI 研究组织逐渐发展壮大的一种表现。”

今日，阿里 M6 宣布升级至万亿参数，并在全球范围内首次大幅降低了万亿参数超大模型训练能耗，更加符合业界对低碳、高效训练 AI 大模型的需求。

通过一系列突破性的技术创新，达摩院团队仅使用 480 卡 V100 32G GPU，即训练出了规模达人类神经元 10 倍的万亿参数多模态大模型 M6，与英伟达、谷歌等海外公司实现万亿参数规模相比，能耗降低超八成、效率提升约 11 倍。

这一技术突破将极大降低万亿模型训练门槛，让大模型研究和工业化落地进入更加普惠的时代。

以下为 M6 发展历程：

2021 年 1 月 —— M6 百亿参数模型达成，国内首个百亿规模多模态大模型
2021 年 2 月 —— M6 千亿参数模型达成，国内首个千亿规模多模态大模型
2021 年 5 月 —— M6 万亿参数模型达成，全球范围内首次大幅降低了万亿参数超大模型训练能耗，且成为国内首个实现商业化落地的多模态大模型

二、M6 万亿大模型有哪些亮点？

AI 大模型更低碳高效：提升了超大规模预训练模型的资源利用率与训练效率，沉淀大模型高效训练的能力。对比 Nvidia(3072 A100 GPU/万亿)、Google(2048 TPU/1.6 万亿)，阿里此次仅使用 480 卡 V100 32G GPU 就实现了高效的万亿 M6 模型的训练，能耗降低超过 8 成，且效率提升近 11 倍。

AI 创造力再次升级：M6 拥有超越传统 AI 的认知和创造能力，擅长绘画、写作、问答，在电商、制造业、文学艺术等诸多领域拥有广泛应用前景。OpenAI DALL·E 生成图片清晰度达 256×256，M6 将图片生成清晰度提升至 1024×1024。更大的模型带来了更强的创造力和可直接工业化应用的前景。

AI 大模型首次商用：M6 成为国内首个实现商业化落地的多模态大模型。经过一段时间的试用，M6 将作为 AI 助理设计师正式上岗阿里新制造平台犀牛智造，通过结合潮流趋势进行快速设计、试穿效果模拟，有望大幅缩短快时尚新款服饰设计周期。M6 还已应用于支付宝、淘宝等平台，参与跨模态搜索、文案撰写、图片设计等工作。

三、M6 万亿模型有哪些关键技术突破？

从开始研发大模型起，阿里 M6 团队便格外重视 GreenAI，即提升超大规模预训练模型的资源利用率与训练效率，沉淀大模型高效训练的能力。这样更多人可用较少的成本训练或者应用大模型。

针对大模型训练资源消耗过高的难题，达摩院联合阿里云机器学习 PAI 平台、EFLOPS 计算集群等团队改进了 MOE（Mixture-of-Experts）框架，创造性地通过专家并行策略，大大扩增了单个模型的承载容量。同时，通过加速线性代数、混合精度训练、半精度通信等优化技术，达摩院团队大幅提升了万亿模型训练速度，且在效果接近无损的前提下有效降低了所需计算资源。

他们首先更细致地探索了 MoE 在预训练模型中的各类超参对模型收敛速度和精度的影响，包括 top-k 的 k 值、capacity 对 load balance 的影响、load balance 本身对效果的影响。基于这一系列的观察，他们提出了一种 Expert Prototyping 的方法，使用分组 MoE 的形式，让不同组的 MoE 通过组合能在参数规模不变的情况下，增大模型的表达空间。

他们观察到在不同规模的模型上，分组 MoE 都能取得比 baseline 更好的效果。相比于单组 switch routing 的串行实现方式，分组 MoE 可以达到更好的加速效果，并且我们发现他在更大规模的模型上优势会变得更大，如下图：

在机器方面，M6 团队最终采用的是在 Hippo 混布集群搭建模型的方案，利用的是 480 个单机单卡的 NVIDIA V100-32GB 的机器，通信为带宽为 100Gb RoCEv2 的 RDMA 网络，在 XDL 上提交任务。

四、M6 已有哪些商业化应用？

AI 设计师与智能新制造：经过试用期，M6 将作为 AI 助理设计师正式上岗阿里新制造平台犀牛智造，通过结合潮流趋势进行快速设计、试穿效果模拟，有望大幅缩短快时尚新款服饰设计周期。随着实践经验的增长，M6 设计的能力还将不断进化。

结合阿里的电商背景，M6 团队希望通过 M6 大模型优异的文到图生成能力，和电商领域产业链深度融合，挖掘潜在的应用价值。具体来说，他们已深入到从服饰设计 &生成、线上展示 &测款的完整链路，期望利用 M6 的高清图像生成能力，缩短服饰企业的存货周转率，帮助商家对潮流趋势有更好的掌控力和更快速的反应力。

此前 OpenAI DALL·E 生成图片清晰度达 256×256，M6 则将图片生成清晰度提升至 1024×1024。

以下是 M6 生成高清服装设计图的示例，设计和图案均为 AI 创作：

M6 还可生成现实中不存在的衣服类型，风格可盐可甜，可搞怪。

以下为 M6 参与新款服装设计的流程图：

工业级文案生成：除文生图外，M6 也已具备可在工业界直接落地的图生文能力，能够快速为商品等图片提供描述文案。该能力目前已在淘宝、支付宝部分业务上试应用。

在参数规模不断升级的过程中，达摩院团队发现，M6 的认知和表达能力也在不断提升：它能够观察到图片中更丰富的细节，并使用更精准的语言进行表达。

比如，在对下述风衣图片的描述中，更大参数规模的 M6 相比基础版，注意到了“经典翻领设计”“腰间系带装饰”“两侧大口袋点缀”等细节，生成文案信息量更大、措词更精准。

跨模态搜索：M6 对图片、文本的精准理解及匹配能力，已在支付宝、手机淘宝中初步试应用，有望帮助提升用户跨模态搜索的效果。

M6 团队观察到，淘宝上有很多长尾词，主要因为很多 95 后、00 后用户有非常特别的商品需求，这些需求带来了很多长尾的搜索词。比如，有用户可能想要一个表面凹凸的咖啡杯，也就是日式风格凹凸咖啡杯，因为商家一般不会把这样的细节写在商品名和描述中，单纯基于文本的搜索很难搜出对应商品。

多模态大模型为精准的跨模态搜索带来可能。目前 M6 已建立从文本到图片的匹配能力，未来，或将建立从文字到视频内容的认知能力，为搜索形态带来变革。

五、M6 团队接下来的规划？

达摩院资深算法专家杨红霞表示，“接下来，M6 团队将继续把低碳 AI 做到极致，推进应用进一步落地，并探索对通用大模型的理论研究。”

M6 团队主要关注方向如下：

继续将 GreenAI 做到极致，让更多学者和企业能参与对下一代 AI 的研究、应用。
继续推进大模型应用落地，让下一代 AI 进入包括社会公益在内的更多领域。
优化通用模型下游任务训练，让大模型在更多任务上拥有更好的表现。
探索对通用大模型的理论研究，期望揭开“How it works”。
探索大模型训练的软硬件结合，启发下一代人工智能硬件设计。

今年以来，阿里在超大规模预训练模型领域屡出成果。除发布多模态巨模型 M6 外，阿里巴巴达摩院近期还发布了中文社区领先的语言大模型 PLUG，实现了在 AI 大模型底层技术及应用上的深入布局。

发布

暂无评论

创作场景

阿里达摩院发布万亿参数 AI 大模型 M6，“神经元”达人类 10 倍，初具认知与创造能力

一、M6 大模型是什么？

二、M6 万亿大模型有哪些亮点？

三、M6 万亿模型有哪些关键技术突破？

四、M6 已有哪些商业化应用？

五、M6 团队接下来的规划？

评论

跨平台应用开发进阶(四十五)uni-app集成企微客服实战

RESTful API类渗透测试要点

MySQL数据文件被误删，如何进行恢复？

Spider实战系列-爬取鬼吹灯小说

Fragment基本概述

详解更新缓存的五种组合方式

2023移动云大会重磅官宣，云改“新三年”强势开局引期待？

云效AppStack--扫雷亲测

【体验有奖】玩转 AIGC，Serverless 一键部署 AI 图像生成服务

基于Mac M1玩转AI绘图

华为云等保合规方案，助力企业最快30天过等保

连Hibernate技术都不清楚，你敢说你自己会ORM框架？

Go 也能实现 “继承”？

机器视觉公司，在玩一局玩不起的游戏

跨平台应用开发进阶(四十四)一文走近应用层抓包工具：Charles

不用写一行代码，就能生成web服务完整项目代码，服务端也可以低代码开发

华为云等保方案，为企业上云保驾护航

如何利用人工智能的语言模型创造价值和收益

克隆远端项目，idea 自动生成了一个.idea 文件夹，怎么办？

新技术加持下前端开发工程师的未来在哪里？| 社区征文

Meetup 直播预告｜助力企业数字化转型，8 大微服务&容器开源实践亮点抢先看

华为云等保方案，轻松满足企业等保合规要求

更专业、安全的过等保，华为云等保合规解决方案值得选择

基于 RocketMQ Connect 构建数据流转处理平台

华为云等保合规解决方案，助力企业轻松、省心、安全“上云”

Vue3 watch 与 watchEffect

Exception和Error有什么区别吗 | 社区征文

Go语言开发小技巧&易错点100例（五）

华为云等保合规解决方案，助力企业高效过等保

聊聊JavaScript和Scala的表达式 Expression

创作场景

阿里达摩院发布万亿参数 AI 大模型 M6，“神经元”达人类 10 倍，初具认知与创造能力

一、M6 大模型是什么？

二、M6 万亿大模型有哪些亮点？

三、M6 万亿模型有哪些关键技术突破？

四、M6 已有哪些商业化应用？

五、M6 团队接下来的规划？

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载