GMTC全球大前端技术大会(北京站)门票9折特惠截至本周五,点击立减¥480 了解详情
写点什么

关于华为云最新发布的盘古大模型,我们提了几个问题

2021 年 5 月 06 日

关于华为云最新发布的盘古大模型,我们提了几个问题

4 月 25 日,在华为开发者大会(Cloud)上,华为云发布了盘古系列超大规模预训练模型,包括 30 亿参数的全球最大视觉(CV)预训练模型,以及华为云与循环智能、鹏城实验室联合开发的千亿参数、40TB 训练数据的(NLP)预训练模型。



其中,盘古 NLP 大模型由华为云、循环智能和鹏城实验室联合开发,具备领先的语言理解和模型生成能力:在权威的中文语言理解评测基准 CLUE 榜单中,盘古 NLP 大模型在总排行榜及分类、阅读理解单项均排名第一,刷新三项榜单世界历史纪录;总排行榜得分 83.046,多项子任务得分业界领先, 向人类水平(85.61)迈进了一大步。



盘古 NLP 大模型位列 CLUE 榜单总排行榜第一


华为云人工智能领域首席科学家、IEEE Fellow 田奇表示:“预训练大模型是解决 AI 应用开发定制化和碎片化的重要方法。华为云盘古大模型可以实现一个 AI 大模型在众多场景通用、泛化和规模化复制,减少对数据标注的依赖,并使用 ModelArts 平台,让 AI 开发由作坊式转变为工业化开发的新模式。”外界对华为云盘古大模型充满了好奇,在华为开发者大会(Cloud)期间,参与大模型开发的两位华为云专家回答了以下几个大家关心的问题。


 作为一个开发者,请问盘古大模型的易用性如何?使用成本有多高?


华为云专家:预训练模型设计的目的就是为了让大家降低使用成本。大模型的预训练过程中,成本是比较高的,但这个成本不需要开发者来承担。开发者在使用盘古大模型的时候,它本身的易用性会使得使用成本进一步降低,达到一个比较合适的水平。比如说,我们会开发出一些比较通俗易懂的 Pipeline,如果你是有一定基础的开发人员,你可以从我们的 Pipeline 当中去做更多的定制化的开发,更好地去释放预训练模型的能力。如果你只是一个 AI 开发小白,想用大模型去做 AI 简单的开发,我们也会给你更加通俗易懂的界面,让大家能够用一些拖拉拽的方式使用盘古大模型。总体来讲,大家在使用预训练模型的时候,计算时长、调参所需要重复的代价等都会被降到很低,总体来讲是对开发者非常友好的。


 对于新入门计算机视觉的人来说,需要掌握什么哪些知识才能快速进入到学习和研发中?


华为云专家:人工智能、计算机视觉等经过几十年的发展,到现在已经拥有很庞大的知识体系。如果一个初学者想要把这些东西都了解以后再开始做研究,效率会稍微有点低。我给大家的建议是,你在学习过程当中,可以先找准一个问题。刚开始的时候,这个问题可能是相对初级的问题,但一定有具体的场景。比如想做弱监督学习,一般就是遇到某个实际的问题,它确实需要弱监督算法。但是我是不是一定要掌握全监督才能去做弱监督呢?并不是这样的。你可以先去查阅一些资料,了解当前的弱监督学习方法,它的基线是什么,它的前沿在哪里。然后你可以开始做一些简单的实验。实验的过程当中,一般会遇到一些困难或者一些疑惑。解决这些困难和疑惑的过程,一般就会把你引导到它的基础,比如说全监督到底是怎么做的。当你有了更多基础以后,回过头来,也会发现你对当前做的算法有了一个更好的理解。所以我的建议是大家可以找一本机器学习、计算机视觉这类介绍比较深入的教材去看,但是不要局限于这个教材:一边做具体的课题,一边去学习知识,效率会比较高。


盘古 CV 大模型有哪些成功的落地?跟业界相比处在什么位置?


华为云专家:盘古 CV 大模型,结合相关流程化开发,已经在华为内部以及其他合作项目上,有 100+ 成功落地,这些方向涵盖了各行各业,包括工业视觉、网络审查、零售商超,以及医疗等场景,都获得了一些相较于之前不使用预训练大模型更高的结果。在某些场景上,比如遥感影像分割,我们通过设计针对遥感影像的预训练算法,在没有增加额外标注代价的情况下,达到了最多 12% 的分割精度提升。还有另外一个比较有意思的现象,我们使用超大规模图像进行的预训练模型具有更好的可迁移性,即直接把这样一个模型,迁移到了工业质检的缺陷上进行推理,我们非常欣喜地发现,我们在下游数据集上没有进行任何微调,但是在工业缺陷检测上,获得了比之前我的模型不停地高度的优化,甚至利用下游的数据微调更好的结果,这个结果基本上会高出 3 到 4 个百分点。这个启发我们,模型数据一旦够多,其实它的泛化能力能够获得更好的保障。


第二,我们是国内最早做视觉预训练大模型的公司之一。在国外是 Facebook 和谷歌从 2019 年开始在图像上做了一些应用。我们视觉预训练模型大概从 2019 年底的时候就开始了,通过自研的一些列改进算法,我们首次在基于 ImageNet 的无监督预训练模型线性分类精度上达到了全监督基线的水平,同时在小样本学习上大大领先现有技术,这些都是业界领先的成果。


华为的预训练是采用什么类型数据和学习任务?盘古 CV 大模型如何保证端侧性能?


华为云专家:针对视觉图像不同角度,以及不同场景的变化,盘古 CV 大模型采取的方法非常简单。一,我们可能有海量数据集,这个数据集规模已经达到了亿级甚至十亿级这样的规模,我们相信这个海量的数据集,它能够建模实际场景图像的方方面面。二,我们采取了什么样的学习方式。其实它的一个核心思想,就是 2019 年开始,比较火的基于全局的对比度自监督学习方法。我们在这上面做了很多改进。包括如何来利用弱标签信息,如何把全局的信息拓展到局部来更好建模局部相关关系。同时也会呼应刚才提到的,如何处理不同视角、不同尺度图像问题,怎么来让它进行高效的建模,这里面就是让它进行不同的数据增强,我们在预训练算法中,集成了十余种数据增强方法,让它通过不同的数据增强,使得整个模型具有针对不同数据增强的不变性。到目前为止,我们在一个大模型种,搭载模型蒸馏、抽取以及行业大模型,已经适配了大概十余种预训练模型。这十余种模型都是通过我们一个大模型的抽取,蒸馏所得到的,它在相应的行业上,得到了非常大的精度提升。同时也极大地减少了标注代价以及模型迭代周期。


华为云盘古 CV 大模型是如何结合不同行业知识,解决标注数据大的问题?


华为云专家:举一个我们在华为开发者大会(Cloud)上发布的国网重庆永川供电公司电力无人机智能巡检的例子,这就是非常典型的利用盘古 CV 大模型解决行业问题的例子。在国网电力巡检模型开发的过程中,它有海量的数据,标注非常困难,我们做了什么呢?通过我们的视觉预训练算法,在海量的巡检数据上进行预训练,这个预训练是利用了无人机巡检的数十 TB 图像,上百万规模的数量,进行预训练。大模型的参数更大,数据更多,所以它能够更好地建模无人机巡检过程中的图片的细微差异。利用盘古 CV 大模型,它能够提供更好的表征,使得标注代价减少了 80% 以上,这在人力成本上是一个非常大的节省。除了减少标注,还可以一个大模型适配我们电力巡检领域的一百多种缺陷,从而让模型迭代周期大大减少,整个迭代效率大概提升了 10 倍。我们在每次模型迭代过程中反馈给人需要标注的整体的工作量就会越少。通过这两种模式,最终提升了电力无人机智能巡检 AI 模型的整体开发效率。

2021 年 5 月 06 日 12:061434

评论

发布
暂无评论
发现更多内容

剑指Java面试:面试官能问到的问题,都被我收集在这份PDF文档里

Java成神之路

Java 程序员 架构 面试 编程语言

beego + nginx 实现反向代理统一认证

冯骐

golang nginx 开发 ldap auth_request

Python学习心得

张鹤羽粑粑

28天写作 3月日更

智慧党建平台解决方案--高效开展党建工作

13530558032

阿里P7亲自讲解!如何快速的开发一个完整的直播app,成功入职腾讯

欢喜学安卓

android 程序员 面试 移动开发

15 分钟部署一个 CAS 服务并对接 Shibboleth-IdP 3.4.6

冯骐

CAS 认证 Shibboleth 统一身份认证

2021年最新京东技术岗现场三面:jvm调优+高并发+算法+网络+数据库+设计模式

Java架构之路

Java 程序员 架构 面试 编程语言

Semaphore实战

叫练

CountDownLatch CyclicBarrier Semaphore 线程协作

云安全和访问管理

龙归科技

云计算 安全 云端 企业安全

阿里P7亲自讲解!驱动核心源码详解和Binder超系统学习资源,跳槽薪资翻倍

欢喜学安卓

android 程序员 面试 移动开发

GitHub上获赞10万star的高并发神级进阶资料,面试官再问高并发问题请你把这篇文章发给他!

Java架构之路

Java 程序员 架构 面试 编程语言

牛掰,阿里P8这份笔记不就相当于金三银四中的原子弹吗?已经帮助13位同行拿到了一线大厂的offer!

Java架构师迁哥

APICloud Avm.js前端框架的优势

APICloud

小程序 前端框架 移动开发· 跨端开发 多端开发

怎样在自己的 Web 中加入强大的日志系统?slf4j 的日志插件必须要知道!

老王说编程

slf4j java 日志 日志管理 日志框架

一个即将从《蚂蚁金服》离职的Java工程师个人经历与总结

Java成神之路

Java 程序员 架构 面试 编程语言

四面阿里成功斩获offer,在此分享我的复盘经验总结!

Java架构之路

Java 程序员 架构 面试 编程语言

园区网中 IPv6 地址的终端 mac 地址追溯

冯骐

Python 运维 日志 网络 ipv6

Shibboleth-IdP 的 OAuth2 对接方案详解

冯骐

OAuth2 SAML Shibboleth CARSI

程序员之禅(二)

每天读本书

读书笔记 每天读本书

软件开发,如何快速有效缩短项目周期

雯雯写代码

软件开发

手把手教学,如何使用低代码快速构建应用程序步骤详解!

优秀

低代码

神经网络攻防:03.使用API修改神经网络参数

P小二

AIPwn AI安全 P小二 神经网络攻防

【科创人】Testin云测总裁徐琨:创业必须要创造出肉眼可见的价值

科创人

都 2021 年了,也该抛弃 ExpressJS 了

LeanCloud

前端开发 nodejs 框架

史上最全整合第三方登录的开源库

happlyfox

OAuth 2.0 28天写作 3月日更

神经网络攻防: 02.攻击模型的输出层

P小二

AIPwn AI安全 P小二 神经网络攻防

5 分钟部署一个 OAuth2 服务并对接 Shibboleth-IdP 3.4.6

冯骐

golang 运维 开发 OAuth2 Shibboleth

Promise原理及常用操作

花明

小目标!2021年薪资要个40k,我肝了200个Java面试题给大家!

Java成神之路

Java 程序员 架构 面试 编程语言

区块链产业革命:解决融资租赁之谜

旺链科技

区块链应用 融资租赁

世界经济论坛:四大区块链趋势将在今年绽放异彩

CECBC区块链专委会

区块链

关于华为云最新发布的盘古大模型,我们提了几个问题-InfoQ