阿里达摩院发布万亿参数AI大模型M6，“神经元”达人类10倍，初具认知与创造能力_开源_阿里达摩院



 写点什么

阿里达摩院发布万亿参数AI大模型M6，“神经元”达人类10倍，初具认知与创造能力

6 月 25 日，阿里巴巴达摩院发布“低碳版”巨模型 M6，在全球范围内首次大幅降低了万亿参数超大模型训练能耗，更加符合业界对低碳、高效训练 AI 大模型的迫切需求。通过一系列突破性的技术创新，达摩院团队仅使用 480 卡 GPU，即训练出了规模达人类神经元 10 倍的万亿参数多模态大模型 M6，与英伟达、谷歌等海外公司实现万亿参数规模相比，能耗降低超八成、效率提升近 11 倍。

一、M6 大模型是什么？

M6 是阿里达摩院研发的超大规模多模态预训练模型，英文全称是 MultiModality-to-MultiModality Multitask Mega-transformer，6 个 M，简称 M6。

顾名思义，M6 大模型主打多模态、多任务能力，其目标是打造全球领先的具有通用性的人工智能大模型。

今年 3 月，达摩院发布了国内首个千亿参数多模态大模型 M6，引发海外关注。OpenAI 前政策主管 Jack Clark 公开点评道：“这个模型的规模和设计都非常惊人。这看起来像是众多中国的 AI 研究组织逐渐发展壮大的一种表现。”

今日，阿里 M6 宣布升级至万亿参数，并在全球范围内首次大幅降低了万亿参数超大模型训练能耗，更加符合业界对低碳、高效训练 AI 大模型的需求。

通过一系列突破性的技术创新，达摩院团队仅使用 480 卡 V100 32G GPU，即训练出了规模达人类神经元 10 倍的万亿参数多模态大模型 M6，与英伟达、谷歌等海外公司实现万亿参数规模相比，能耗降低超八成、效率提升约 11 倍。

这一技术突破将极大降低万亿模型训练门槛，让大模型研究和工业化落地进入更加普惠的时代。

以下为 M6 发展历程：

2021 年 1 月 —— M6 百亿参数模型达成，国内首个百亿规模多模态大模型
2021 年 2 月 —— M6 千亿参数模型达成，国内首个千亿规模多模态大模型
2021 年 5 月 —— M6 万亿参数模型达成，全球范围内首次大幅降低了万亿参数超大模型训练能耗，且成为国内首个实现商业化落地的多模态大模型

二、M6 万亿大模型有哪些亮点？

AI 大模型更低碳高效：提升了超大规模预训练模型的资源利用率与训练效率，沉淀大模型高效训练的能力。对比 Nvidia(3072 A100 GPU/万亿)、Google(2048 TPU/1.6 万亿)，阿里此次仅使用 480 卡 V100 32G GPU 就实现了高效的万亿 M6 模型的训练，能耗降低超过 8 成，且效率提升近 11 倍。

AI 创造力再次升级：M6 拥有超越传统 AI 的认知和创造能力，擅长绘画、写作、问答，在电商、制造业、文学艺术等诸多领域拥有广泛应用前景。OpenAI DALL·E 生成图片清晰度达 256×256，M6 将图片生成清晰度提升至 1024×1024。更大的模型带来了更强的创造力和可直接工业化应用的前景。

AI 大模型首次商用：M6 成为国内首个实现商业化落地的多模态大模型。经过一段时间的试用，M6 将作为 AI 助理设计师正式上岗阿里新制造平台犀牛智造，通过结合潮流趋势进行快速设计、试穿效果模拟，有望大幅缩短快时尚新款服饰设计周期。M6 还已应用于支付宝、淘宝等平台，参与跨模态搜索、文案撰写、图片设计等工作。

三、M6 万亿模型有哪些关键技术突破？

从开始研发大模型起，阿里 M6 团队便格外重视 GreenAI，即提升超大规模预训练模型的资源利用率与训练效率，沉淀大模型高效训练的能力。这样更多人可用较少的成本训练或者应用大模型。

针对大模型训练资源消耗过高的难题，达摩院联合阿里云机器学习 PAI 平台、EFLOPS 计算集群等团队改进了 MOE（Mixture-of-Experts）框架，创造性地通过专家并行策略，大大扩增了单个模型的承载容量。同时，通过加速线性代数、混合精度训练、半精度通信等优化技术，达摩院团队大幅提升了万亿模型训练速度，且在效果接近无损的前提下有效降低了所需计算资源。

他们首先更细致地探索了 MoE 在预训练模型中的各类超参对模型收敛速度和精度的影响，包括 top-k 的 k 值、capacity 对 load balance 的影响、load balance 本身对效果的影响。基于这一系列的观察，他们提出了一种 Expert Prototyping 的方法，使用分组 MoE 的形式，让不同组的 MoE 通过组合能在参数规模不变的情况下，增大模型的表达空间。

他们观察到在不同规模的模型上，分组 MoE 都能取得比 baseline 更好的效果。相比于单组 switch routing 的串行实现方式，分组 MoE 可以达到更好的加速效果，并且我们发现他在更大规模的模型上优势会变得更大，如下图：

在机器方面，M6 团队最终采用的是在 Hippo 混布集群搭建模型的方案，利用的是 480 个单机单卡的 NVIDIA V100-32GB 的机器，通信为带宽为 100Gb RoCEv2 的 RDMA 网络，在 XDL 上提交任务。

四、M6 已有哪些商业化应用？

AI 设计师与智能新制造：经过试用期，M6 将作为 AI 助理设计师正式上岗阿里新制造平台犀牛智造，通过结合潮流趋势进行快速设计、试穿效果模拟，有望大幅缩短快时尚新款服饰设计周期。随着实践经验的增长，M6 设计的能力还将不断进化。

结合阿里的电商背景，M6 团队希望通过 M6 大模型优异的文到图生成能力，和电商领域产业链深度融合，挖掘潜在的应用价值。具体来说，他们已深入到从服饰设计 &生成、线上展示 &测款的完整链路，期望利用 M6 的高清图像生成能力，缩短服饰企业的存货周转率，帮助商家对潮流趋势有更好的掌控力和更快速的反应力。

此前 OpenAI DALL·E 生成图片清晰度达 256×256，M6 则将图片生成清晰度提升至 1024×1024。

以下是 M6 生成高清服装设计图的示例，设计和图案均为 AI 创作：

M6 还可生成现实中不存在的衣服类型，风格可盐可甜，可搞怪。

以下为 M6 参与新款服装设计的流程图：

工业级文案生成：除文生图外，M6 也已具备可在工业界直接落地的图生文能力，能够快速为商品等图片提供描述文案。该能力目前已在淘宝、支付宝部分业务上试应用。

在参数规模不断升级的过程中，达摩院团队发现，M6 的认知和表达能力也在不断提升：它能够观察到图片中更丰富的细节，并使用更精准的语言进行表达。

比如，在对下述风衣图片的描述中，更大参数规模的 M6 相比基础版，注意到了“经典翻领设计”“腰间系带装饰”“两侧大口袋点缀”等细节，生成文案信息量更大、措词更精准。

跨模态搜索：M6 对图片、文本的精准理解及匹配能力，已在支付宝、手机淘宝中初步试应用，有望帮助提升用户跨模态搜索的效果。

M6 团队观察到，淘宝上有很多长尾词，主要因为很多 95 后、00 后用户有非常特别的商品需求，这些需求带来了很多长尾的搜索词。比如，有用户可能想要一个表面凹凸的咖啡杯，也就是日式风格凹凸咖啡杯，因为商家一般不会把这样的细节写在商品名和描述中，单纯基于文本的搜索很难搜出对应商品。

多模态大模型为精准的跨模态搜索带来可能。目前 M6 已建立从文本到图片的匹配能力，未来，或将建立从文字到视频内容的认知能力，为搜索形态带来变革。

五、M6 团队接下来的规划？

达摩院资深算法专家杨红霞表示，“接下来，M6 团队将继续把低碳 AI 做到极致，推进应用进一步落地，并探索对通用大模型的理论研究。”

M6 团队主要关注方向如下：

继续将 GreenAI 做到极致，让更多学者和企业能参与对下一代 AI 的研究、应用。
继续推进大模型应用落地，让下一代 AI 进入包括社会公益在内的更多领域。
优化通用模型下游任务训练，让大模型在更多任务上拥有更好的表现。
探索对通用大模型的理论研究，期望揭开“How it works”。
探索大模型训练的软硬件结合，启发下一代人工智能硬件设计。

今年以来，阿里在超大规模预训练模型领域屡出成果。除发布多模态巨模型 M6 外，阿里巴巴达摩院近期还发布了中文社区领先的语言大模型 PLUG，实现了在 AI 大模型底层技术及应用上的深入布局。

发布

暂无评论

创作场景

阿里达摩院发布万亿参数 AI 大模型 M6，“神经元”达人类 10 倍，初具认知与创造能力

一、M6 大模型是什么？

二、M6 万亿大模型有哪些亮点？

三、M6 万亿模型有哪些关键技术突破？

四、M6 已有哪些商业化应用？

五、M6 团队接下来的规划？

评论

Relocating the Docker root directory

ChatGPT真的可以取代基础工作岗位吗？

OpenMMLab图像分类实战代码演示

架构训练营模块七作业

基于SLO告警（Part 4）：开源项目 pyrra 使用

架构实战营模块5 高性能高可用计算作业

解读 Java 云原生实践中的内存问题

ONES 支持多项信创适配，打造自主可控的国产化平台

全景剖析阿里云容器网络数据链路（五）：Terway ENI-Trunking

试试 IntelliJ IDEA 新的 UI

从 JDK 9 到 19，我们帮您提炼了和云原生场景有关的能力列表（上）

Java 中如何限制方法的返回时间

为什么在容器中 1 号进程挂不上 arthas？

推进行业生态发展完善，中国信通院第八批RPA评测工作正式启动

突破边界：“超融合+”带来的商业化精益之路

vue实现一个鼠标滑动预览视频封面组件（精灵图版本）

10 亿月活用户下，快手基于 Dragonfly 的超大规模镜像分发实践

CleanMyMac X2023电脑最新版本更新内容

2022阿里云技术年报：基础产品篇

docker setup mysql

Higress + Nacos 微服务网关最佳实践

IntelliJ IDEA 撤销和反撤销

IntelliJ IDEA 修改只读模式和可写模式

重磅发布丨《云原生实战指南》助力企业上云实践！

API Explorer 进阶之路 | 一篇文章快速入门！

云原生微服务应用平台 EDAS 2022 年度报告

应用纳管和灰度发布：谐云基于 KubeVela 的企业级云原生实践

C++ 友元与运算符重载那些事

渲染速度慢，使用云渲染会快多少？

核心应用实现云原生改造升级，波司登数字化战略加速落地

技术服务深耕本地市场：阿里云在日本的探索与实践｜国家经理专栏

创作场景

阿里达摩院发布万亿参数 AI 大模型 M6，“神经元”达人类 10 倍，初具认知与创造能力

一、M6 大模型是什么？

二、M6 万亿大模型有哪些亮点？

三、M6 万亿模型有哪些关键技术突破？

四、M6 已有哪些商业化应用？

五、M6 团队接下来的规划？

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载