【AICon 全球人工智能与大模型开发与应用大会】改变 AI 时代下写代码的模式 >>> 了解详情
写点什么

阿里达摩院发布万亿参数 AI 大模型 M6,“神经元”达人类 10 倍,初具认知与创造能力

  • 2021-06-25
  • 本文字数:2924 字

    阅读完需:约 10 分钟

阿里达摩院发布万亿参数AI大模型M6,“神经元”达人类10倍,初具认知与创造能力

6 月 25 日,阿里巴巴达摩院发布“低碳版”巨模型 M6,在全球范围内首次大幅降低了万亿参数超大模型训练能耗,更加符合业界对低碳、高效训练 AI 大模型的迫切需求。通过一系列突破性的技术创新,达摩院团队仅使用 480 卡 GPU,即训练出了规模达人类神经元 10 倍的万亿参数多模态大模型 M6,与英伟达、谷歌等海外公司实现万亿参数规模相比,能耗降低超八成、效率提升近 11 倍。

一、M6 大模型是什么?

 

M6 是阿里达摩院研发的超大规模多模态预训练模型,英文全称是 MultiModality-to-MultiModality Multitask Mega-transformer,6 个 M,简称 M6。

 

顾名思义,M6 大模型主打多模态、多任务能力,其目标是打造全球领先的具有通用性的人工智能大模型。

 

今年 3 月,达摩院发布了国内首个千亿参数多模态大模型 M6,引发海外关注。OpenAI 前政策主管 Jack Clark 公开点评道:“这个模型的规模和设计都非常惊人。这看起来像是众多中国的 AI 研究组织逐渐发展壮大的一种表现。”

 

今日,阿里 M6 宣布升级至万亿参数,并在全球范围内首次大幅降低了万亿参数超大模型训练能耗,更加符合业界对低碳、高效训练 AI 大模型的需求。

 

通过一系列突破性的技术创新,达摩院团队仅使用 480 卡 V100 32G GPU,即训练出了规模达人类神经元 10 倍的万亿参数多模态大模型 M6,与英伟达、谷歌等海外公司实现万亿参数规模相比,能耗降低超八成、效率提升约 11 倍。

 

这一技术突破将极大降低万亿模型训练门槛,让大模型研究和工业化落地进入更加普惠的时代。


以下为 M6 发展历程:


  • 2021 年 1 月 —— M6 百亿参数模型达成,国内首个百亿规模多模态大模型 

  • 2021 年 2 月 —— M6 千亿参数模型达成,国内首个千亿规模多模态大模型

  • 2021 年 5 月 —— M6 万亿参数模型达成,全球范围内首次大幅降低了万亿参数超大模型训练能耗,且成为国内首个实现商业化落地的多模态大模型

二、M6 万亿大模型有哪些亮点?


AI 大模型更低碳高效:提升了超大规模预训练模型的资源利用率与训练效率,沉淀大模型高效训练的能力。对比 Nvidia(3072 A100 GPU/万亿)、Google(2048 TPU/1.6 万亿),阿里此次仅使用 480 卡 V100 32G GPU 就实现了高效的万亿 M6 模型的训练,能耗降低超过 8 成,且效率提升近 11 倍。


AI 创造力再次升级:M6 拥有超越传统 AI 的认知和创造能力,擅长绘画、写作、问答,在电商、制造业、文学艺术等诸多领域拥有广泛应用前景。OpenAI DALL·E 生成图片清晰度达 256×256,M6 将图片生成清晰度提升至 1024×1024。更大的模型带来了更强的创造力和可直接工业化应用的前景。


AI 大模型首次商用:M6 成为国内首个实现商业化落地的多模态大模型。经过一段时间的试用,M6 将作为 AI 助理设计师正式上岗阿里新制造平台犀牛智造,通过结合潮流趋势进行快速设计、试穿效果模拟,有望大幅缩短快时尚新款服饰设计周期。M6 还已应用于支付宝、淘宝等平台,参与跨模态搜索、文案撰写、图片设计等工作。

三、M6 万亿模型有哪些关键技术突破?


从开始研发大模型起,阿里 M6 团队便格外重视 GreenAI,即提升超大规模预训练模型的资源利用率与训练效率,沉淀大模型高效训练的能力。这样更多人可用较少的成本训练或者应用大模型。


针对大模型训练资源消耗过高的难题,达摩院联合阿里云机器学习 PAI 平台、EFLOPS 计算集群等团队改进了 MOE(Mixture-of-Experts)框架,创造性地通过专家并行策略,大大扩增了单个模型的承载容量。同时,通过加速线性代数混合精度训练半精度通信等优化技术,达摩院团队大幅提升了万亿模型训练速度,且在效果接近无损的前提下有效降低了所需计算资源。


他们首先更细致地探索了 MoE 在预训练模型中的各类超参对模型收敛速度和精度的影响,包括 top-k 的 k 值、capacity 对 load balance 的影响、load balance 本身对效果的影响。基于这一系列的观察,他们提出了一种 Expert Prototyping 的方法,使用分组 MoE 的形式,让不同组的 MoE 通过组合能在参数规模不变的情况下,增大模型的表达空间。


他们观察到在不同规模的模型上,分组 MoE 都能取得比 baseline 更好的效果。相比于单组 switch routing 的串行实现方式,分组 MoE 可以达到更好的加速效果,并且我们发现他在更大规模的模型上优势会变得更大,如下图:



在机器方面,M6 团队最终采用的是在 Hippo 混布集群搭建模型的方案,利用的是 480 个单机单卡的 NVIDIA V100-32GB 的机器,通信为带宽为 100Gb RoCEv2 的 RDMA 网络,在 XDL 上提交任务。

四、M6 已有哪些商业化应用?


AI 设计师与智能新制造:经过试用期,M6 将作为 AI 助理设计师正式上岗阿里新制造平台犀牛智造,通过结合潮流趋势进行快速设计、试穿效果模拟,有望大幅缩短快时尚新款服饰设计周期。随着实践经验的增长,M6 设计的能力还将不断进化。


结合阿里的电商背景,M6 团队希望通过 M6 大模型优异的文到图生成能力,和电商领域产业链深度融合,挖掘潜在的应用价值。具体来说,他们已深入到从服饰设计 &生成、线上展示 &测款的完整链路,期望利用 M6 的高清图像生成能力,缩短服饰企业的存货周转率,帮助商家对潮流趋势有更好的掌控力和更快速的反应力。


此前 OpenAI DALL·E 生成图片清晰度达 256×256,M6 则将图片生成清晰度提升至 1024×1024。



 以下是 M6 生成高清服装设计图的示例,设计和图案均为 AI 创作:



M6 还可生成现实中不存在的衣服类型,风格可盐可甜,可搞怪。



以下为 M6 参与新款服装设计的流程图:



工业级文案生成:除文生图外,M6 也已具备可在工业界直接落地的图生文能力,能够快速为商品等图片提供描述文案。该能力目前已在淘宝、支付宝部分业务上试应用。


在参数规模不断升级的过程中,达摩院团队发现,M6 的认知和表达能力也在不断提升:它能够观察到图片中更丰富的细节,并使用更精准的语言进行表达。


比如,在对下述风衣图片的描述中,更大参数规模的 M6 相比基础版,注意到了“经典翻领设计”“腰间系带装饰”“两侧大口袋点缀”等细节,生成文案信息量更大、措词更精准。


跨模态搜索:M6 对图片、文本的精准理解及匹配能力,已在支付宝、手机淘宝中初步试应用,有望帮助提升用户跨模态搜索的效果。


M6 团队观察到,淘宝上有很多长尾词,主要因为很多 95 后、00 后用户有非常特别的商品需求,这些需求带来了很多长尾的搜索词。比如,有用户可能想要一个表面凹凸的咖啡杯,也就是日式风格凹凸咖啡杯,因为商家一般不会把这样的细节写在商品名和描述中,单纯基于文本的搜索很难搜出对应商品。

多模态大模型为精准的跨模态搜索带来可能。目前 M6 已建立从文本到图片的匹配能力,未来,或将建立从文字到视频内容的认知能力,为搜索形态带来变革。



 五、M6 团队接下来的规划?


达摩院资深算法专家杨红霞表示,“接下来,M6 团队将继续把低碳 AI 做到极致,推进应用进一步落地,并探索对通用大模型的理论研究。”


M6 团队主要关注方向如下:


  • 继续将 GreenAI 做到极致,让更多学者和企业能参与对下一代 AI 的研究、应用。

  • 继续推进大模型应用落地,让下一代 AI 进入包括社会公益在内的更多领域。

  • 优化通用模型下游任务训练,让大模型在更多任务上拥有更好的表现。

  • 探索对通用大模型的理论研究,期望揭开“How it works”。

  • 探索大模型训练的软硬件结合,启发下一代人工智能硬件设计。


今年以来,阿里在超大规模预训练模型领域屡出成果。除发布多模态巨模型 M6 外,阿里巴巴达摩院近期还发布了中文社区领先的语言大模型 PLUG,实现了在 AI 大模型底层技术及应用上的深入布局。

2021-06-25 11:199463

评论

发布
暂无评论
发现更多内容

3.7亿条保单数据怎么分析?这个大数据平台有绝招

华为云开发者联盟

大数据 hadoop 数据湖 FusionInsight Kyligence

正向代理与反向代理

王坤祥

nginx 反向代理 代理 正向代理与反向代理 Proxy

SpreadJS 纯前端表格控件应用案例:立信智能审计云平台(SACP)

葡萄城技术团队

大数据思维与运用

石云升

大数据 数据建模 数据驱动

七夕情人节,程序员的表白方式简直太秀了!

程序员生活志

程序员 七夕

linux入门系列13--磁盘管理之RAID、LVM技术

黑马腾云

Linux centos raid lvm 磁盘挂载

SpreadJS 纯前端表格控件应用案例:货运代理客户服务平台

葡萄城技术团队

Python中的global关键字的用法以及如何设置项目级的Global变量

陈磊@Criss

兼具艺术情怀和舒适旅居体验,木莲庄做了什么

InfoQ_967a83c6d0d7

乘风人脸识别来了,企业能得到什么?

ToB行业头条

人工智能 人脸识别 百度大脑

ARTS 挑战打卡第十二周(200727-200802)

老胡爱分享

ARTS 打卡计划

ARTS 挑战打卡第十三周(200803-200809)

老胡爱分享

ARTS 打卡计划

百度联合发布全球最大中文自然语言处理数据共建计划“千言”

百度大脑

人工智能 百度 nlp 百度大脑

【程序员自救指南】一个证书,让我哄好了小师妹

华为云开发者联盟

网络安全 浏览器 华为云 SSL证书 安全证书

LeetCode题解:20. 有效的括号,for循环replace,JavaScript,详细注释

Lee Chen

大前端 LeetCode

一行代码实现简易服务器并共享文件

王坤祥

Python 共享文件

linux入门系列12--磁盘管理之分区、格式化与挂载

黑马腾云

Linux centos 编辑器 linux运维 vi/vim

工作就是解决一个又一个问题

escray

学习 面试

linux入门系列11--Centos7网络服务管理

黑马腾云

Linux centos 网络配置 运维工程师

linux入门系列14--ssh服务及主机远程管理

黑马腾云

Linux centos linux运维 红帽认证

3D渲染集群,你了解多少?

华为云开发者联盟

容器 华为云 集群 3D渲染 3D模型

从“人居美学”的理念出发,木莲庄酒店很不一样

InfoQ_967a83c6d0d7

linux入门系列15--文件传输之vsftp服务

黑马腾云

Linux centos linux操作 linux运维

一键超频 双C Carry,普通用户如何挖潜英特尔十代酷睿?

E科讯

SpreadJS 纯前端表格控件应用案例:实验室信息化管理系统

葡萄城技术团队

高效程序员的45个习惯:敏捷开发修炼之道(5)

石云升

敏捷开发 熵增 用代码沟通

英特尔大小核试水 将推出8+8+1架构酷睿处理器

E科讯

知识点:操作系统异常的分类

王坤祥

操作系统 异常

Python实现一个计时功能的装饰器

王坤祥

Python 装饰器

7. Jackson用树模型处理JSON是必备技能,不信你看

YourBatman

json Jackson ObjectMapper 树模型

SpreadJS 纯前端表格控件应用案例:PtLims云平台

葡萄城技术团队

阿里达摩院发布万亿参数AI大模型M6,“神经元”达人类10倍,初具认知与创造能力_开源_阿里达摩院_InfoQ精选文章