AICon 上海站|90%日程已就绪,解锁Al未来! 了解详情
写点什么

阿里达摩院发布万亿参数 AI 大模型 M6,“神经元”达人类 10 倍,初具认知与创造能力

  • 2021-06-25
  • 本文字数:2924 字

    阅读完需:约 10 分钟

阿里达摩院发布万亿参数AI大模型M6,“神经元”达人类10倍,初具认知与创造能力

6 月 25 日,阿里巴巴达摩院发布“低碳版”巨模型 M6,在全球范围内首次大幅降低了万亿参数超大模型训练能耗,更加符合业界对低碳、高效训练 AI 大模型的迫切需求。通过一系列突破性的技术创新,达摩院团队仅使用 480 卡 GPU,即训练出了规模达人类神经元 10 倍的万亿参数多模态大模型 M6,与英伟达、谷歌等海外公司实现万亿参数规模相比,能耗降低超八成、效率提升近 11 倍。

一、M6 大模型是什么?

 

M6 是阿里达摩院研发的超大规模多模态预训练模型,英文全称是 MultiModality-to-MultiModality Multitask Mega-transformer,6 个 M,简称 M6。

 

顾名思义,M6 大模型主打多模态、多任务能力,其目标是打造全球领先的具有通用性的人工智能大模型。

 

今年 3 月,达摩院发布了国内首个千亿参数多模态大模型 M6,引发海外关注。OpenAI 前政策主管 Jack Clark 公开点评道:“这个模型的规模和设计都非常惊人。这看起来像是众多中国的 AI 研究组织逐渐发展壮大的一种表现。”

 

今日,阿里 M6 宣布升级至万亿参数,并在全球范围内首次大幅降低了万亿参数超大模型训练能耗,更加符合业界对低碳、高效训练 AI 大模型的需求。

 

通过一系列突破性的技术创新,达摩院团队仅使用 480 卡 V100 32G GPU,即训练出了规模达人类神经元 10 倍的万亿参数多模态大模型 M6,与英伟达、谷歌等海外公司实现万亿参数规模相比,能耗降低超八成、效率提升约 11 倍。

 

这一技术突破将极大降低万亿模型训练门槛,让大模型研究和工业化落地进入更加普惠的时代。


以下为 M6 发展历程:


  • 2021 年 1 月 —— M6 百亿参数模型达成,国内首个百亿规模多模态大模型 

  • 2021 年 2 月 —— M6 千亿参数模型达成,国内首个千亿规模多模态大模型

  • 2021 年 5 月 —— M6 万亿参数模型达成,全球范围内首次大幅降低了万亿参数超大模型训练能耗,且成为国内首个实现商业化落地的多模态大模型

二、M6 万亿大模型有哪些亮点?


AI 大模型更低碳高效:提升了超大规模预训练模型的资源利用率与训练效率,沉淀大模型高效训练的能力。对比 Nvidia(3072 A100 GPU/万亿)、Google(2048 TPU/1.6 万亿),阿里此次仅使用 480 卡 V100 32G GPU 就实现了高效的万亿 M6 模型的训练,能耗降低超过 8 成,且效率提升近 11 倍。


AI 创造力再次升级:M6 拥有超越传统 AI 的认知和创造能力,擅长绘画、写作、问答,在电商、制造业、文学艺术等诸多领域拥有广泛应用前景。OpenAI DALL·E 生成图片清晰度达 256×256,M6 将图片生成清晰度提升至 1024×1024。更大的模型带来了更强的创造力和可直接工业化应用的前景。


AI 大模型首次商用:M6 成为国内首个实现商业化落地的多模态大模型。经过一段时间的试用,M6 将作为 AI 助理设计师正式上岗阿里新制造平台犀牛智造,通过结合潮流趋势进行快速设计、试穿效果模拟,有望大幅缩短快时尚新款服饰设计周期。M6 还已应用于支付宝、淘宝等平台,参与跨模态搜索、文案撰写、图片设计等工作。

三、M6 万亿模型有哪些关键技术突破?


从开始研发大模型起,阿里 M6 团队便格外重视 GreenAI,即提升超大规模预训练模型的资源利用率与训练效率,沉淀大模型高效训练的能力。这样更多人可用较少的成本训练或者应用大模型。


针对大模型训练资源消耗过高的难题,达摩院联合阿里云机器学习 PAI 平台、EFLOPS 计算集群等团队改进了 MOE(Mixture-of-Experts)框架,创造性地通过专家并行策略,大大扩增了单个模型的承载容量。同时,通过加速线性代数混合精度训练半精度通信等优化技术,达摩院团队大幅提升了万亿模型训练速度,且在效果接近无损的前提下有效降低了所需计算资源。


他们首先更细致地探索了 MoE 在预训练模型中的各类超参对模型收敛速度和精度的影响,包括 top-k 的 k 值、capacity 对 load balance 的影响、load balance 本身对效果的影响。基于这一系列的观察,他们提出了一种 Expert Prototyping 的方法,使用分组 MoE 的形式,让不同组的 MoE 通过组合能在参数规模不变的情况下,增大模型的表达空间。


他们观察到在不同规模的模型上,分组 MoE 都能取得比 baseline 更好的效果。相比于单组 switch routing 的串行实现方式,分组 MoE 可以达到更好的加速效果,并且我们发现他在更大规模的模型上优势会变得更大,如下图:



在机器方面,M6 团队最终采用的是在 Hippo 混布集群搭建模型的方案,利用的是 480 个单机单卡的 NVIDIA V100-32GB 的机器,通信为带宽为 100Gb RoCEv2 的 RDMA 网络,在 XDL 上提交任务。

四、M6 已有哪些商业化应用?


AI 设计师与智能新制造:经过试用期,M6 将作为 AI 助理设计师正式上岗阿里新制造平台犀牛智造,通过结合潮流趋势进行快速设计、试穿效果模拟,有望大幅缩短快时尚新款服饰设计周期。随着实践经验的增长,M6 设计的能力还将不断进化。


结合阿里的电商背景,M6 团队希望通过 M6 大模型优异的文到图生成能力,和电商领域产业链深度融合,挖掘潜在的应用价值。具体来说,他们已深入到从服饰设计 &生成、线上展示 &测款的完整链路,期望利用 M6 的高清图像生成能力,缩短服饰企业的存货周转率,帮助商家对潮流趋势有更好的掌控力和更快速的反应力。


此前 OpenAI DALL·E 生成图片清晰度达 256×256,M6 则将图片生成清晰度提升至 1024×1024。



 以下是 M6 生成高清服装设计图的示例,设计和图案均为 AI 创作:



M6 还可生成现实中不存在的衣服类型,风格可盐可甜,可搞怪。



以下为 M6 参与新款服装设计的流程图:



工业级文案生成:除文生图外,M6 也已具备可在工业界直接落地的图生文能力,能够快速为商品等图片提供描述文案。该能力目前已在淘宝、支付宝部分业务上试应用。


在参数规模不断升级的过程中,达摩院团队发现,M6 的认知和表达能力也在不断提升:它能够观察到图片中更丰富的细节,并使用更精准的语言进行表达。


比如,在对下述风衣图片的描述中,更大参数规模的 M6 相比基础版,注意到了“经典翻领设计”“腰间系带装饰”“两侧大口袋点缀”等细节,生成文案信息量更大、措词更精准。


跨模态搜索:M6 对图片、文本的精准理解及匹配能力,已在支付宝、手机淘宝中初步试应用,有望帮助提升用户跨模态搜索的效果。


M6 团队观察到,淘宝上有很多长尾词,主要因为很多 95 后、00 后用户有非常特别的商品需求,这些需求带来了很多长尾的搜索词。比如,有用户可能想要一个表面凹凸的咖啡杯,也就是日式风格凹凸咖啡杯,因为商家一般不会把这样的细节写在商品名和描述中,单纯基于文本的搜索很难搜出对应商品。

多模态大模型为精准的跨模态搜索带来可能。目前 M6 已建立从文本到图片的匹配能力,未来,或将建立从文字到视频内容的认知能力,为搜索形态带来变革。



 五、M6 团队接下来的规划?


达摩院资深算法专家杨红霞表示,“接下来,M6 团队将继续把低碳 AI 做到极致,推进应用进一步落地,并探索对通用大模型的理论研究。”


M6 团队主要关注方向如下:


  • 继续将 GreenAI 做到极致,让更多学者和企业能参与对下一代 AI 的研究、应用。

  • 继续推进大模型应用落地,让下一代 AI 进入包括社会公益在内的更多领域。

  • 优化通用模型下游任务训练,让大模型在更多任务上拥有更好的表现。

  • 探索对通用大模型的理论研究,期望揭开“How it works”。

  • 探索大模型训练的软硬件结合,启发下一代人工智能硬件设计。


今年以来,阿里在超大规模预训练模型领域屡出成果。除发布多模态巨模型 M6 外,阿里巴巴达摩院近期还发布了中文社区领先的语言大模型 PLUG,实现了在 AI 大模型底层技术及应用上的深入布局。

2021-06-25 11:1913672

评论

发布
暂无评论
发现更多内容

Python代码阅读(第47篇):从列表右边开始执行给定函数

Felix

Python 编程 Code Programing 阅读代码

【浪潮云说】直播间第十期将于今晚19:30准时开播

云计算

堪称神级的Spring Boot手册,从基础入门到实战进阶

Java 程序员 Spring Boot

云原生体系下 Serverless 弹性探索与实践

Serverless Devs

云原生 无服务器 弹性计算

万圣节也是节,准备好Trick or Treat了么?

气气

话题讨论

WorkPlus数字化办公解决方案,打造企业高效协同生态!

BeeWorks

PaddlePaddle:在 Serverless 架构上十几行代码实现 OCR 能力

Serverless Devs

给JSONObject添加自定义遍历方法

FunTester

单元测试 Fastjson JSON库 spock FunTester

网易云音乐音视频算法的 Serverless 探索之路

Serverless Devs

阿里云 Serverless 算法 音视频

先行一步,7 大技术创新和突破,阿里云把 Serverless 领域的这些难题都给解了

Serverless Devs

阿里云 gpu VPC 函数计算

递推算法与递推套路(手撕算法篇)

有道技术团队

学习 编程 算法

阿里最新春招面经,腾讯/美团/字节1万道Java中高级面试题

收到请回复

Java 程序员 面试 职场 后端

Serverless 工程实践 | 零基础上手 Knative 应用

Serverless Devs

网易云音乐音视频算法的 Serverless 探索之路

阿里巴巴中间件

云计算 阿里云 Serverless 云原生 中间件

英特尔On技术创新峰会公布开发者重点投入计划,全面赋能开发者

科技新消息

直面Z级计算挑战,英特尔携手生态合作伙伴加速开发者工具和软件部署

科技新消息

用建造者模式实现一个防SQL注入的ORM框架

Tom弹架构

AISWare AntDB亚信科技数据库产品特性解读——平滑弹性扩展(一)

亚信AntDB数据库

亚信科技

如何成为一个更好的职业人?

石云升

学习笔记 职场经验 10月月更

公关CRM软件助你培养长期客户关系

低代码小观

CRM 管理系统 管理工具 管理软件 公关

[2021年新鲜出炉]K8s工程师资料合辑,书籍推荐,面试题,精选文章,开源项目,PPT,视频,大厂资料

奔着腾讯去

golang Docker Kubernetes 容器 云原生

瑜伽CRM系统使老师再也不用教学分心

低代码小观

CRM 管理工具 CRM系统 瑜伽 瑜伽馆管理

Android平台如何使用RSA算法进行加解密?

Changing Lin

10月月更

安全漏洞的复现与总结

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 漏洞挖掘

英特尔全面升级开发者专区(Developer Zone),携手开发者共塑科技未来

科技新消息

架构实战营毕业总结

maybe

打破 Serverless 落地边界,阿里云 SAE 发布 5 大新特性

Serverless Devs

阿里云 Serverless 函数计算

Serverless 工程实践 | 自建 Apache OpenWhisk 平台

Serverless Devs

第 24 章 -《Linux 一学就会》- shell中色彩处理和awk使用技巧

学神来啦

Linux linux运维 linux云计算 linux一学就会

三轮融资笔笔过亿,来画如何实现弯道超车?

ToB行业头条

一文详解从云计算到 Serverless

Serverless Devs

云计算 Serverless

阿里达摩院发布万亿参数AI大模型M6,“神经元”达人类10倍,初具认知与创造能力_开源_阿里达摩院_InfoQ精选文章