【QCon】精华内容上线92%,全面覆盖“人工智能+”的典型案例!>>> 了解详情
写点什么

阿里达摩院发布万亿参数 AI 大模型 M6,“神经元”达人类 10 倍,初具认知与创造能力

  • 2021-06-25
  • 本文字数:2924 字

    阅读完需:约 10 分钟

阿里达摩院发布万亿参数AI大模型M6,“神经元”达人类10倍,初具认知与创造能力

6 月 25 日,阿里巴巴达摩院发布“低碳版”巨模型 M6,在全球范围内首次大幅降低了万亿参数超大模型训练能耗,更加符合业界对低碳、高效训练 AI 大模型的迫切需求。通过一系列突破性的技术创新,达摩院团队仅使用 480 卡 GPU,即训练出了规模达人类神经元 10 倍的万亿参数多模态大模型 M6,与英伟达、谷歌等海外公司实现万亿参数规模相比,能耗降低超八成、效率提升近 11 倍。

一、M6 大模型是什么?

 

M6 是阿里达摩院研发的超大规模多模态预训练模型,英文全称是 MultiModality-to-MultiModality Multitask Mega-transformer,6 个 M,简称 M6。

 

顾名思义,M6 大模型主打多模态、多任务能力,其目标是打造全球领先的具有通用性的人工智能大模型。

 

今年 3 月,达摩院发布了国内首个千亿参数多模态大模型 M6,引发海外关注。OpenAI 前政策主管 Jack Clark 公开点评道:“这个模型的规模和设计都非常惊人。这看起来像是众多中国的 AI 研究组织逐渐发展壮大的一种表现。”

 

今日,阿里 M6 宣布升级至万亿参数,并在全球范围内首次大幅降低了万亿参数超大模型训练能耗,更加符合业界对低碳、高效训练 AI 大模型的需求。

 

通过一系列突破性的技术创新,达摩院团队仅使用 480 卡 V100 32G GPU,即训练出了规模达人类神经元 10 倍的万亿参数多模态大模型 M6,与英伟达、谷歌等海外公司实现万亿参数规模相比,能耗降低超八成、效率提升约 11 倍。

 

这一技术突破将极大降低万亿模型训练门槛,让大模型研究和工业化落地进入更加普惠的时代。


以下为 M6 发展历程:


  • 2021 年 1 月 —— M6 百亿参数模型达成,国内首个百亿规模多模态大模型 

  • 2021 年 2 月 —— M6 千亿参数模型达成,国内首个千亿规模多模态大模型

  • 2021 年 5 月 —— M6 万亿参数模型达成,全球范围内首次大幅降低了万亿参数超大模型训练能耗,且成为国内首个实现商业化落地的多模态大模型

二、M6 万亿大模型有哪些亮点?


AI 大模型更低碳高效:提升了超大规模预训练模型的资源利用率与训练效率,沉淀大模型高效训练的能力。对比 Nvidia(3072 A100 GPU/万亿)、Google(2048 TPU/1.6 万亿),阿里此次仅使用 480 卡 V100 32G GPU 就实现了高效的万亿 M6 模型的训练,能耗降低超过 8 成,且效率提升近 11 倍。


AI 创造力再次升级:M6 拥有超越传统 AI 的认知和创造能力,擅长绘画、写作、问答,在电商、制造业、文学艺术等诸多领域拥有广泛应用前景。OpenAI DALL·E 生成图片清晰度达 256×256,M6 将图片生成清晰度提升至 1024×1024。更大的模型带来了更强的创造力和可直接工业化应用的前景。


AI 大模型首次商用:M6 成为国内首个实现商业化落地的多模态大模型。经过一段时间的试用,M6 将作为 AI 助理设计师正式上岗阿里新制造平台犀牛智造,通过结合潮流趋势进行快速设计、试穿效果模拟,有望大幅缩短快时尚新款服饰设计周期。M6 还已应用于支付宝、淘宝等平台,参与跨模态搜索、文案撰写、图片设计等工作。

三、M6 万亿模型有哪些关键技术突破?


从开始研发大模型起,阿里 M6 团队便格外重视 GreenAI,即提升超大规模预训练模型的资源利用率与训练效率,沉淀大模型高效训练的能力。这样更多人可用较少的成本训练或者应用大模型。


针对大模型训练资源消耗过高的难题,达摩院联合阿里云机器学习 PAI 平台、EFLOPS 计算集群等团队改进了 MOE(Mixture-of-Experts)框架,创造性地通过专家并行策略,大大扩增了单个模型的承载容量。同时,通过加速线性代数混合精度训练半精度通信等优化技术,达摩院团队大幅提升了万亿模型训练速度,且在效果接近无损的前提下有效降低了所需计算资源。


他们首先更细致地探索了 MoE 在预训练模型中的各类超参对模型收敛速度和精度的影响,包括 top-k 的 k 值、capacity 对 load balance 的影响、load balance 本身对效果的影响。基于这一系列的观察,他们提出了一种 Expert Prototyping 的方法,使用分组 MoE 的形式,让不同组的 MoE 通过组合能在参数规模不变的情况下,增大模型的表达空间。


他们观察到在不同规模的模型上,分组 MoE 都能取得比 baseline 更好的效果。相比于单组 switch routing 的串行实现方式,分组 MoE 可以达到更好的加速效果,并且我们发现他在更大规模的模型上优势会变得更大,如下图:



在机器方面,M6 团队最终采用的是在 Hippo 混布集群搭建模型的方案,利用的是 480 个单机单卡的 NVIDIA V100-32GB 的机器,通信为带宽为 100Gb RoCEv2 的 RDMA 网络,在 XDL 上提交任务。

四、M6 已有哪些商业化应用?


AI 设计师与智能新制造:经过试用期,M6 将作为 AI 助理设计师正式上岗阿里新制造平台犀牛智造,通过结合潮流趋势进行快速设计、试穿效果模拟,有望大幅缩短快时尚新款服饰设计周期。随着实践经验的增长,M6 设计的能力还将不断进化。


结合阿里的电商背景,M6 团队希望通过 M6 大模型优异的文到图生成能力,和电商领域产业链深度融合,挖掘潜在的应用价值。具体来说,他们已深入到从服饰设计 &生成、线上展示 &测款的完整链路,期望利用 M6 的高清图像生成能力,缩短服饰企业的存货周转率,帮助商家对潮流趋势有更好的掌控力和更快速的反应力。


此前 OpenAI DALL·E 生成图片清晰度达 256×256,M6 则将图片生成清晰度提升至 1024×1024。



 以下是 M6 生成高清服装设计图的示例,设计和图案均为 AI 创作:



M6 还可生成现实中不存在的衣服类型,风格可盐可甜,可搞怪。



以下为 M6 参与新款服装设计的流程图:



工业级文案生成:除文生图外,M6 也已具备可在工业界直接落地的图生文能力,能够快速为商品等图片提供描述文案。该能力目前已在淘宝、支付宝部分业务上试应用。


在参数规模不断升级的过程中,达摩院团队发现,M6 的认知和表达能力也在不断提升:它能够观察到图片中更丰富的细节,并使用更精准的语言进行表达。


比如,在对下述风衣图片的描述中,更大参数规模的 M6 相比基础版,注意到了“经典翻领设计”“腰间系带装饰”“两侧大口袋点缀”等细节,生成文案信息量更大、措词更精准。


跨模态搜索:M6 对图片、文本的精准理解及匹配能力,已在支付宝、手机淘宝中初步试应用,有望帮助提升用户跨模态搜索的效果。


M6 团队观察到,淘宝上有很多长尾词,主要因为很多 95 后、00 后用户有非常特别的商品需求,这些需求带来了很多长尾的搜索词。比如,有用户可能想要一个表面凹凸的咖啡杯,也就是日式风格凹凸咖啡杯,因为商家一般不会把这样的细节写在商品名和描述中,单纯基于文本的搜索很难搜出对应商品。

多模态大模型为精准的跨模态搜索带来可能。目前 M6 已建立从文本到图片的匹配能力,未来,或将建立从文字到视频内容的认知能力,为搜索形态带来变革。



 五、M6 团队接下来的规划?


达摩院资深算法专家杨红霞表示,“接下来,M6 团队将继续把低碳 AI 做到极致,推进应用进一步落地,并探索对通用大模型的理论研究。”


M6 团队主要关注方向如下:


  • 继续将 GreenAI 做到极致,让更多学者和企业能参与对下一代 AI 的研究、应用。

  • 继续推进大模型应用落地,让下一代 AI 进入包括社会公益在内的更多领域。

  • 优化通用模型下游任务训练,让大模型在更多任务上拥有更好的表现。

  • 探索对通用大模型的理论研究,期望揭开“How it works”。

  • 探索大模型训练的软硬件结合,启发下一代人工智能硬件设计。


今年以来,阿里在超大规模预训练模型领域屡出成果。除发布多模态巨模型 M6 外,阿里巴巴达摩院近期还发布了中文社区领先的语言大模型 PLUG,实现了在 AI 大模型底层技术及应用上的深入布局。

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2021-06-25 11:199853

评论

发布
暂无评论
发现更多内容

“算法考核没过,老板找我聊了3个小时”:离职程序员重刷数学题

钟奕礼

Java 程序员 java面试 java编程

下次面试再一上来就问我线程有哪些状态,我上去就是给他一 jio

钟奕礼

Java 程序员 java面试 java编程

C语言怎么给函数添加形参的默认值

eng八戒

c 函数 参数默认值

看完这篇,还不懂JAVA内存模型(JMM)算我输

JAVA旭阳

Java 并发

思路一转,春暖花开!动动手指,这段程序性能又双叒提升2s~15s

靠谱的程序员

MySQL MyBatisPlus Mybatis-Plus

100页6W字的Java面试题,去过大厂面试的程序员都说被问到过

钟奕礼

Java 程序员 java面试 java编程

Linux Network RSS RPS 疑惑

Geek_f24c45

container network veth RPS

一文了解 Go 接口

陈明勇

Go golang 接口

信号量的无序竞争和有序竞争

eng八戒

c Linux Kenel 信号量 C++

AngularJS进阶(十五)Cookie ‘data‘ possibly not set or overflowed because it was too large

No Silver Bullet

Cookie AngularJS 12月月更

AngularJS进阶(十六)脏值检查及语音识别集成

No Silver Bullet

语音识别 AngularJS 12月月更 脏值检查

日期格式化 YYYY-MM-DD 出现时间偏移量

HoneyMoose

easyrecovery2023手机版数据恢复软件下载

茶色酒

EasyRecovery EasyRecovery15 easyrecovery2023

程序员:平安Java岗面试耗尽了我毕生所学,想了想,还是去阿里吧

钟奕礼

Java 程序员 java面试 java编程

Apache NiFi + MatrixDB 20行代码实现数据实时入库!

YMatrix 超融合数据库

三一重工 超融合数据库 YMatrix apachenifi nifi

刨析一下C++构造析构函数能不能声明为虚函数的背后机理?

eng八戒

继承 纯虚函数 C++

8年程序员年初被迫毕业,前后面试30家公司,如今终于拿到Offer!

程序员小毕

程序员 面试 程序人生 后端 架构师

防治“虚假种草”,小红书技术团队干了这几件大事

小红书技术REDtech

MySQL锁,锁的到底是什么?

Java永远的神

MySQL 数据库 程序员 面试 后端

面向场景级的业务资产沉淀和开放

原力在线

架构 DDD 场景 业务资产

太简单了,一文彻底搞懂Jenkins的用法!

Jackpop

EasyRecovery2023个人免费版电脑数据恢复软件

茶色酒

EasyRecovery easyrecovery2023

架构实战-模块1作业

mm

架构实战营 10期

迎战大厂!“金九银十”和秋招通过率达95%的Java面试要点集锦

钟奕礼

Java 程序员 java面试 java编程

Linux 定时器介绍

eng八戒

c 定时器 Linux Kenel C++

AngularJS进阶(十四)AngularJS路由问题分析

No Silver Bullet

路由 AngularJS 12月月更

面对当下最热的多模态,为什么这些业界和学界专家说“不必追热点”

小红书技术REDtech

架构实战营模块1第2课 - 如何画出优秀的架构图

净意

cmake 入门笔记

eng八戒

c makefile 工程管理 cmake C++

3月寒窗!啃透美团保姆级分布式进阶技术手册,4月终入美团定L8

程序知音

Java 分布式 java架构 后端技术

亚马逊 CTO Werner Vogels:2023 年及未来五大技术趋势预测

亚马逊云科技 (Amazon Web Services)

人工智能 大数据 亚马逊云科技

阿里达摩院发布万亿参数AI大模型M6,“神经元”达人类10倍,初具认知与创造能力_开源_阿里达摩院_InfoQ精选文章