写点什么

阿里达摩院发布万亿参数 AI 大模型 M6,“神经元”达人类 10 倍,初具认知与创造能力

  • 2021 年 6 月 25 日
  • 本文字数:2924 字

    阅读完需:约 10 分钟

阿里达摩院发布万亿参数AI大模型M6,“神经元”达人类10倍,初具认知与创造能力

6 月 25 日,阿里巴巴达摩院发布“低碳版”巨模型 M6,在全球范围内首次大幅降低了万亿参数超大模型训练能耗,更加符合业界对低碳、高效训练 AI 大模型的迫切需求。通过一系列突破性的技术创新,达摩院团队仅使用 480 卡 GPU,即训练出了规模达人类神经元 10 倍的万亿参数多模态大模型 M6,与英伟达、谷歌等海外公司实现万亿参数规模相比,能耗降低超八成、效率提升近 11 倍。

一、M6 大模型是什么?

 

M6 是阿里达摩院研发的超大规模多模态预训练模型,英文全称是 MultiModality-to-MultiModality Multitask Mega-transformer,6 个 M,简称 M6。

 

顾名思义,M6 大模型主打多模态、多任务能力,其目标是打造全球领先的具有通用性的人工智能大模型。

 

今年 3 月,达摩院发布了国内首个千亿参数多模态大模型 M6,引发海外关注。OpenAI 前政策主管 Jack Clark 公开点评道:“这个模型的规模和设计都非常惊人。这看起来像是众多中国的 AI 研究组织逐渐发展壮大的一种表现。”

 

今日,阿里 M6 宣布升级至万亿参数,并在全球范围内首次大幅降低了万亿参数超大模型训练能耗,更加符合业界对低碳、高效训练 AI 大模型的需求。

 

通过一系列突破性的技术创新,达摩院团队仅使用 480 卡 V100 32G GPU,即训练出了规模达人类神经元 10 倍的万亿参数多模态大模型 M6,与英伟达、谷歌等海外公司实现万亿参数规模相比,能耗降低超八成、效率提升约 11 倍。

 

这一技术突破将极大降低万亿模型训练门槛,让大模型研究和工业化落地进入更加普惠的时代。


以下为 M6 发展历程:


  • 2021 年 1 月 —— M6 百亿参数模型达成,国内首个百亿规模多模态大模型 

  • 2021 年 2 月 —— M6 千亿参数模型达成,国内首个千亿规模多模态大模型

  • 2021 年 5 月 —— M6 万亿参数模型达成,全球范围内首次大幅降低了万亿参数超大模型训练能耗,且成为国内首个实现商业化落地的多模态大模型

二、M6 万亿大模型有哪些亮点?


AI 大模型更低碳高效:提升了超大规模预训练模型的资源利用率与训练效率,沉淀大模型高效训练的能力。对比 Nvidia(3072 A100 GPU/万亿)、Google(2048 TPU/1.6 万亿),阿里此次仅使用 480 卡 V100 32G GPU 就实现了高效的万亿 M6 模型的训练,能耗降低超过 8 成,且效率提升近 11 倍。


AI 创造力再次升级:M6 拥有超越传统 AI 的认知和创造能力,擅长绘画、写作、问答,在电商、制造业、文学艺术等诸多领域拥有广泛应用前景。OpenAI DALL·E 生成图片清晰度达 256×256,M6 将图片生成清晰度提升至 1024×1024。更大的模型带来了更强的创造力和可直接工业化应用的前景。


AI 大模型首次商用:M6 成为国内首个实现商业化落地的多模态大模型。经过一段时间的试用,M6 将作为 AI 助理设计师正式上岗阿里新制造平台犀牛智造,通过结合潮流趋势进行快速设计、试穿效果模拟,有望大幅缩短快时尚新款服饰设计周期。M6 还已应用于支付宝、淘宝等平台,参与跨模态搜索、文案撰写、图片设计等工作。

三、M6 万亿模型有哪些关键技术突破?


从开始研发大模型起,阿里 M6 团队便格外重视 GreenAI,即提升超大规模预训练模型的资源利用率与训练效率,沉淀大模型高效训练的能力。这样更多人可用较少的成本训练或者应用大模型。


针对大模型训练资源消耗过高的难题,达摩院联合阿里云机器学习 PAI 平台、EFLOPS 计算集群等团队改进了 MOE(Mixture-of-Experts)框架,创造性地通过专家并行策略,大大扩增了单个模型的承载容量。同时,通过加速线性代数混合精度训练半精度通信等优化技术,达摩院团队大幅提升了万亿模型训练速度,且在效果接近无损的前提下有效降低了所需计算资源。


他们首先更细致地探索了 MoE 在预训练模型中的各类超参对模型收敛速度和精度的影响,包括 top-k 的 k 值、capacity 对 load balance 的影响、load balance 本身对效果的影响。基于这一系列的观察,他们提出了一种 Expert Prototyping 的方法,使用分组 MoE 的形式,让不同组的 MoE 通过组合能在参数规模不变的情况下,增大模型的表达空间。


他们观察到在不同规模的模型上,分组 MoE 都能取得比 baseline 更好的效果。相比于单组 switch routing 的串行实现方式,分组 MoE 可以达到更好的加速效果,并且我们发现他在更大规模的模型上优势会变得更大,如下图:



在机器方面,M6 团队最终采用的是在 Hippo 混布集群搭建模型的方案,利用的是 480 个单机单卡的 NVIDIA V100-32GB 的机器,通信为带宽为 100Gb RoCEv2 的 RDMA 网络,在 XDL 上提交任务。

四、M6 已有哪些商业化应用?


AI 设计师与智能新制造:经过试用期,M6 将作为 AI 助理设计师正式上岗阿里新制造平台犀牛智造,通过结合潮流趋势进行快速设计、试穿效果模拟,有望大幅缩短快时尚新款服饰设计周期。随着实践经验的增长,M6 设计的能力还将不断进化。


结合阿里的电商背景,M6 团队希望通过 M6 大模型优异的文到图生成能力,和电商领域产业链深度融合,挖掘潜在的应用价值。具体来说,他们已深入到从服饰设计 &生成、线上展示 &测款的完整链路,期望利用 M6 的高清图像生成能力,缩短服饰企业的存货周转率,帮助商家对潮流趋势有更好的掌控力和更快速的反应力。


此前 OpenAI DALL·E 生成图片清晰度达 256×256,M6 则将图片生成清晰度提升至 1024×1024。



 以下是 M6 生成高清服装设计图的示例,设计和图案均为 AI 创作:



M6 还可生成现实中不存在的衣服类型,风格可盐可甜,可搞怪。



以下为 M6 参与新款服装设计的流程图:



工业级文案生成:除文生图外,M6 也已具备可在工业界直接落地的图生文能力,能够快速为商品等图片提供描述文案。该能力目前已在淘宝、支付宝部分业务上试应用。


在参数规模不断升级的过程中,达摩院团队发现,M6 的认知和表达能力也在不断提升:它能够观察到图片中更丰富的细节,并使用更精准的语言进行表达。


比如,在对下述风衣图片的描述中,更大参数规模的 M6 相比基础版,注意到了“经典翻领设计”“腰间系带装饰”“两侧大口袋点缀”等细节,生成文案信息量更大、措词更精准。


跨模态搜索:M6 对图片、文本的精准理解及匹配能力,已在支付宝、手机淘宝中初步试应用,有望帮助提升用户跨模态搜索的效果。


M6 团队观察到,淘宝上有很多长尾词,主要因为很多 95 后、00 后用户有非常特别的商品需求,这些需求带来了很多长尾的搜索词。比如,有用户可能想要一个表面凹凸的咖啡杯,也就是日式风格凹凸咖啡杯,因为商家一般不会把这样的细节写在商品名和描述中,单纯基于文本的搜索很难搜出对应商品。

多模态大模型为精准的跨模态搜索带来可能。目前 M6 已建立从文本到图片的匹配能力,未来,或将建立从文字到视频内容的认知能力,为搜索形态带来变革。



 五、M6 团队接下来的规划?


达摩院资深算法专家杨红霞表示,“接下来,M6 团队将继续把低碳 AI 做到极致,推进应用进一步落地,并探索对通用大模型的理论研究。”


M6 团队主要关注方向如下:


  • 继续将 GreenAI 做到极致,让更多学者和企业能参与对下一代 AI 的研究、应用。

  • 继续推进大模型应用落地,让下一代 AI 进入包括社会公益在内的更多领域。

  • 优化通用模型下游任务训练,让大模型在更多任务上拥有更好的表现。

  • 探索对通用大模型的理论研究,期望揭开“How it works”。

  • 探索大模型训练的软硬件结合,启发下一代人工智能硬件设计。


今年以来,阿里在超大规模预训练模型领域屡出成果。除发布多模态巨模型 M6 外,阿里巴巴达摩院近期还发布了中文社区领先的语言大模型 PLUG,实现了在 AI 大模型底层技术及应用上的深入布局。

2021 年 6 月 25 日 11:193268

评论

发布
暂无评论
发现更多内容

「SQL数据分析系列」13. 索引和约束

数据与智能

sql 分布式

Druid 查询返回引擎版本困惑的地方

HoneyMoose

Vue进阶(幺陆陆):组件实例 $el 详解

No Silver Bullet

Vue 7月日更 $el

Introduction to the Keras Tuner

毛显新

tensorflow

Tensorflow日常随笔(一)

毛显新

tensorflow

程序员有哪些不可或缺的效率神器?

Jackpop

开发

想要跳槽拿高薪,却没有大型性能调优经验怎么办?淘宝架构师手把手带你前进

Java架构师迁哥

音视频详细学习路线和权威资料

hanaper

音视频 ffmpeg 语音识别 语音合成 图形图像处理

区块链产业政策红利加速释放

Geek_987812

外包学生管理系统的架构设计

架构0期-Bingo

网络安全现状,一个黑客真实的收入

网络安全学海

黑客 网络安全 信息安全 渗透测试 漏洞分析

Java磁盘文件IO

文件I/O

Drools 入门

LeifChen

drools 规则引擎 8月日更 业务规则

体验设计工具:18格窗口

石云升

用户体验 7月日更 体验设计

操作系统--虚拟内存

en

Text classification with TensorFlow Hub: Movie reviews

毛显新

tensorflow

Vue进阶(幺柒柒):Vue 应用 Sass、Scss、Less 和 Stylus

No Silver Bullet

Vue 7月日更 预处理器

Fil行情:什么时候投资fil合适?

区块链 分布式存储 IPFS fil fil行情

牛客网爆火!面试命中率高达 90% 的阿里 10W 字面试笔记已被疯传

Java 程序员 架构 面试 计算机

程序员专属的搜索主页

开源君

搜索技巧 搜索引擎;

熬夜整理的c/c++万字总结(一)

C语言与CPP编程

c c++

redis,memcached,nginx网络组件

赖猫

nginx redis memcached 网络组件

26岁!月薪38k,全靠这份GitHub百万下载的阿里P5-P9知识核心手册

Crud的程序员

Java 编程 架构

软件测试---基础知识

刘帅强

软件测试

毕业总结

请弄脏我的身体

架构实战营

阿里面试官把以往的Java面试题全部总结在这份《Java10W字面试复盘笔记》里面了

Java 程序员 架构 面试 计算机

各国纷纷推出数字货币,数字货币发展正当其时

Geek_987812

等待结果

IT蜗壳-Tango

7月日更

揭开进程的概念、状态、通信的迷雾。看完瞬间豁然开朗

Linux服务器开发

线程 网络编程 Linux服务器开发 Linux后台开发 进程管理

开发者必备神器,你真的会用吗?

Jackpop

北鲲云超算平台如何提高高性能计算在云环境下的可行性?

北鲲云

Flutter 自动化测试

Flutter 自动化测试

阿里达摩院发布万亿参数AI大模型M6,“神经元”达人类10倍,初具认知与创造能力-InfoQ