限时领|《AI 百问百答》专栏课+实体书(包邮)! 了解详情
写点什么

达摩院损失 AI“大将”,预训练大模型 M6 技术负责人杨红霞离职

  • 2022-10-12
    北京
  • 本文字数:1377 字

    阅读完需:约 5 分钟

达摩院损失AI“大将”,预训练大模型M6技术负责人杨红霞离职

阿里达摩院损失 AI“大将”。


日前,据 Tech 星球报道,阿里达摩院大模型带头人杨红霞已于 9 月初离职。InfoQ 发现,杨红霞于不久前注销了钉钉账号。

全球最大 AI 预训练模型 M6 背后的技术负责人


杨红霞博士是超大规模多模态预训练模型 M6 的技术负责人。


M6,英文全称是 MultiModality-to-MultiModality Multitask Mega-transformer,6 个 M,简称 M6。


顾名思义,M6 大模型主打多模态、多任务能力,其目标是打造全球领先的具有通用性的人工智能大模型。


2021 年 3 月,达摩院发布了国内首个千亿参数多模态大模型 M6,引发海外关注。OpenAI 前政策主管 Jack Clark 公开点评道:“这个模型的规模和设计都非常惊人。这看起来像是众多中国的 AI 研究组织逐渐发展壮大的一种表现。”


2021 年 11 月,阿里 M6 宣布升级至万亿参数,并在全球范围内首次大幅降低了万亿参数超大模型训练能耗,更加符合业界对低碳、高效训练 AI 大模型的需求。


据悉,通过一系列突破性的技术创新,达摩院团队仅使用 480 卡 V100 32G GPU,即训练出了规模达人类神经元 10 倍的万亿参数多模态大模型 M6,与英伟达、谷歌等海外公司实现万亿参数规模相比,能耗降低超八成、效率提升约 11 倍。


这一技术突破将极大降低万亿模型训练门槛,让大模型研究和工业化落地进入更加普惠的时代。


针对此次升级,达摩院资深算法专家杨红霞曾表示,“接下来,M6 团队将继续把低碳 AI 做到极致,推进应用进一步落地,并探索对通用大模型的理论研究。”


以下为 M6 发展历程:


  • 2021 年 1 月 —— M6 百亿参数模型达成,国内首个百亿规模多模态大模型

  • 2021 年 2 月 —— M6 千亿参数模型达成,国内首个千亿规模多模态大模型

  • 2021 年 5 月 —— M6 万亿参数模型达成,全球范围内首次大幅降低了万亿参数超大模型训练能耗,且成为国内首个实现商业化落地的多模态大模型

AI 项目落地难?


据报道,杨红霞此次离职是因为个人家庭原因。


Tech 星球的报道中称,此番杨红霞离职,被认为是达摩院对一些难以落地的商业化项目进行调整。一位阿里云内部人士透露,“达摩院很多项目都是远看很牛,近看难以落地”,虽然二者都在云与科技,但是达摩院的项目与业务产研隔的较远,也很少和云服务一起对外售卖。所以达摩院每个项目的落地应用和商业化程度,很多是个谜。


去年 5 月,阿里宣布 AI 大模型首次商用,M6 成为国内首个实现商业化落地的多模态大模型。经过一段时间的试用,M6 作为 AI 助理设计师正式上岗阿里新制造平台犀牛智造,通过结合潮流趋势进行快速设计、试穿效果模拟,有望大幅缩短快时尚新款服饰设计周期。M6 还已应用于支付宝、淘宝等平台,参与跨模态搜索、文案撰写、图片设计等工作。


此前,阿里一直强调,达摩院不用有盈利压力。但 2022 年,互联网企业普遍降本增效,达摩院也进行了诸多调整。在杨红霞之前,阿里集团副总裁、阿里云研究院副院长肖利华,达摩院副院长金榕等都已相继离开阿里。


杨红霞是 AI 领域杰出的人工智能科学家。资料显示,杨红霞 2007 年本科毕业于南开大学,获统计学学士学位。其后她去往美国杜克大学统计科学系攻读博士学位,师从 David Dunson 教授。杨红霞拥有顶级论文 40 余篇。曾任 IBM Watson 研究员、Yahoo!主任数据科学家等职。她曾带领团队获 2019 世界人工智能大会最高奖卓越人工智能引领者(Super AI Leader,简称 SAIL 奖),曾获 2022 年福布斯中国科技女性 50 强的荣誉,获得 2020 年国家科学技术进步奖二等奖。

2022-10-12 12:075035
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 572.5 次阅读, 收获喜欢 1980 次。

关注

评论

发布
暂无评论
发现更多内容

TypeScript基础学习

乌龟哥哥

4月月更

react源码解析11.生命周期调用顺序

buchila11

React

EventBridge 特性介绍|以 IaC 的方式使用 EventBridge

阿里巴巴云原生

交易所多种模式开发、各种源码交易

Geek_56201b

交易所开发 区块链应用开发 软件定制

如何在Unity中免费制作游戏

龙智—DevSecOps解决方案

Unity Perforce Helix Core

半导体行业如何保持高效远程办公?因果集群(Causal Clustering)了解一下!

龙智—DevSecOps解决方案

远程办公 因果集群

周日直播|OpenMLDB Pulsar Connector,高效打通实时数据到特征工程

Apache Pulsar

开源 架构 云原生 Apache Pulsar 消息中间件

Jira 云产品宕机多日,业界热议上云如何保障数据安全

万事ONES

Atlassian Jira 研发管理工具 项目管理工具 企业研发管理

华为云推出限量NFT云宝,区块链技术为你的数字资产保驾护航

华为云开发者联盟

华为云 NFT 云宝 华为云NFT 华为云数字资产链

低代码极简部署

源字节1号

低代码开发

TiDB 查询优化及调优系列(一)TiDB 优化器简介

PingCAP

新思科技助力Linux基金会开展最新开源普查项目

InfoQ_434670063458

Linux 开源 新思科技

自己动手写Docker系列 -- 5.8实现容器制定环境变量运行

Go Docker 4月月更

面试突击39:synchronized底层是如何实现的?

王磊

Java java面试

Linux驱动开发-编写W25Q64(Flash)驱动

DS小龙哥

4月月更

如何通过云效Codeup高效落地分支模式,提升开发协作率

阿里云云效

云计算 阿里云 版本管理 分支管理 分支模式

Android C++系列:C++最佳实践2抽象类

轻口味

c++ android 4月月更

通过质量内建,提高交付质量

老张

软件测试 质量内建 交付质量

云风:不加班、不炫技,把复杂的问题简单化

博文视点Broadview

得物App H5秒开优化实战

得物技术

前端 H5 优化 实战 Web H5

企业如何进行信息化

秋去冬来春未远

数字化 信息化管理 如何信息化 信息化规律

java培训:怎样才能写出一个优秀的对外接口

@零度

JAVA开发 对外接口

从Opentracing、OpenCensus 到 OpenTelemetry,看可观测数据标准演进史

阿里巴巴云原生

Atlassian应对CVE-2022-22963,CVE-2022-22965的常见问题

龙智—DevSecOps解决方案

Atlassian CVE-2022-22963 CVE-2022-22965

react源码解析12.状态更新流程

buchila11

React

去中心化钱包系统开发app,imtoken钱包平台搭建源码

Geek_56201b

#区块链# 源码搭建 去中心化钱包

专车数据层架构进化往事:好的架构是进化来的,不是设计来的

勇哥java实战分享

架构

web前端培训学习需要掌握哪些 Linux 命令

@零度

前端开发

Docker 实战教程之从入门到提高 (四)

汪子熙

Docker 容器 虚拟化 docker image 4月月更

大数据培训关于数据采集面试问题分享

@零度

数据采集 面试问题 大数据开发

共探开源生态|Apache Pulsar 社区助力 Apache APISIX Summit Asia 2022

Apache Pulsar

开源 架构 云原生 Apache Pulsar Apache Pulsar 社区

达摩院损失AI“大将”,预训练大模型M6技术负责人杨红霞离职_AI&大模型_刘燕_InfoQ精选文章