NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

关于华为云最新发布的盘古大模型,我们提了几个问题

  • 2021-05-06
  • 本文字数:2796 字

    阅读完需:约 9 分钟

关于华为云最新发布的盘古大模型,我们提了几个问题

4 月 25 日,在华为开发者大会(Cloud)上,华为云发布了盘古系列超大规模预训练模型,包括 30 亿参数的全球最大视觉(CV)预训练模型,以及华为云与循环智能、鹏城实验室联合开发的千亿参数、40TB 训练数据的(NLP)预训练模型。



其中,盘古 NLP 大模型由华为云、循环智能和鹏城实验室联合开发,具备领先的语言理解和模型生成能力:在权威的中文语言理解评测基准 CLUE 榜单中,盘古 NLP 大模型在总排行榜及分类、阅读理解单项均排名第一,刷新三项榜单世界历史纪录;总排行榜得分 83.046,多项子任务得分业界领先, 向人类水平(85.61)迈进了一大步。



盘古 NLP 大模型位列 CLUE 榜单总排行榜第一


华为云人工智能领域首席科学家、IEEE Fellow 田奇表示:“预训练大模型是解决 AI 应用开发定制化和碎片化的重要方法。华为云盘古大模型可以实现一个 AI 大模型在众多场景通用、泛化和规模化复制,减少对数据标注的依赖,并使用 ModelArts 平台,让 AI 开发由作坊式转变为工业化开发的新模式。”外界对华为云盘古大模型充满了好奇,在华为开发者大会(Cloud)期间,参与大模型开发的两位华为云专家回答了以下几个大家关心的问题。


 作为一个开发者,请问盘古大模型的易用性如何?使用成本有多高?


华为云专家:预训练模型设计的目的就是为了让大家降低使用成本。大模型的预训练过程中,成本是比较高的,但这个成本不需要开发者来承担。开发者在使用盘古大模型的时候,它本身的易用性会使得使用成本进一步降低,达到一个比较合适的水平。比如说,我们会开发出一些比较通俗易懂的 Pipeline,如果你是有一定基础的开发人员,你可以从我们的 Pipeline 当中去做更多的定制化的开发,更好地去释放预训练模型的能力。如果你只是一个 AI 开发小白,想用大模型去做 AI 简单的开发,我们也会给你更加通俗易懂的界面,让大家能够用一些拖拉拽的方式使用盘古大模型。总体来讲,大家在使用预训练模型的时候,计算时长、调参所需要重复的代价等都会被降到很低,总体来讲是对开发者非常友好的。


 对于新入门计算机视觉的人来说,需要掌握什么哪些知识才能快速进入到学习和研发中?


华为云专家:人工智能、计算机视觉等经过几十年的发展,到现在已经拥有很庞大的知识体系。如果一个初学者想要把这些东西都了解以后再开始做研究,效率会稍微有点低。我给大家的建议是,你在学习过程当中,可以先找准一个问题。刚开始的时候,这个问题可能是相对初级的问题,但一定有具体的场景。比如想做弱监督学习,一般就是遇到某个实际的问题,它确实需要弱监督算法。但是我是不是一定要掌握全监督才能去做弱监督呢?并不是这样的。你可以先去查阅一些资料,了解当前的弱监督学习方法,它的基线是什么,它的前沿在哪里。然后你可以开始做一些简单的实验。实验的过程当中,一般会遇到一些困难或者一些疑惑。解决这些困难和疑惑的过程,一般就会把你引导到它的基础,比如说全监督到底是怎么做的。当你有了更多基础以后,回过头来,也会发现你对当前做的算法有了一个更好的理解。所以我的建议是大家可以找一本机器学习、计算机视觉这类介绍比较深入的教材去看,但是不要局限于这个教材:一边做具体的课题,一边去学习知识,效率会比较高。


盘古 CV 大模型有哪些成功的落地?跟业界相比处在什么位置?


华为云专家:盘古 CV 大模型,结合相关流程化开发,已经在华为内部以及其他合作项目上,有 100+ 成功落地,这些方向涵盖了各行各业,包括工业视觉、网络审查、零售商超,以及医疗等场景,都获得了一些相较于之前不使用预训练大模型更高的结果。在某些场景上,比如遥感影像分割,我们通过设计针对遥感影像的预训练算法,在没有增加额外标注代价的情况下,达到了最多 12% 的分割精度提升。还有另外一个比较有意思的现象,我们使用超大规模图像进行的预训练模型具有更好的可迁移性,即直接把这样一个模型,迁移到了工业质检的缺陷上进行推理,我们非常欣喜地发现,我们在下游数据集上没有进行任何微调,但是在工业缺陷检测上,获得了比之前我的模型不停地高度的优化,甚至利用下游的数据微调更好的结果,这个结果基本上会高出 3 到 4 个百分点。这个启发我们,模型数据一旦够多,其实它的泛化能力能够获得更好的保障。


第二,我们是国内最早做视觉预训练大模型的公司之一。在国外是 Facebook 和谷歌从 2019 年开始在图像上做了一些应用。我们视觉预训练模型大概从 2019 年底的时候就开始了,通过自研的一些列改进算法,我们首次在基于 ImageNet 的无监督预训练模型线性分类精度上达到了全监督基线的水平,同时在小样本学习上大大领先现有技术,这些都是业界领先的成果。


华为的预训练是采用什么类型数据和学习任务?盘古 CV 大模型如何保证端侧性能?


华为云专家:针对视觉图像不同角度,以及不同场景的变化,盘古 CV 大模型采取的方法非常简单。一,我们可能有海量数据集,这个数据集规模已经达到了亿级甚至十亿级这样的规模,我们相信这个海量的数据集,它能够建模实际场景图像的方方面面。二,我们采取了什么样的学习方式。其实它的一个核心思想,就是 2019 年开始,比较火的基于全局的对比度自监督学习方法。我们在这上面做了很多改进。包括如何来利用弱标签信息,如何把全局的信息拓展到局部来更好建模局部相关关系。同时也会呼应刚才提到的,如何处理不同视角、不同尺度图像问题,怎么来让它进行高效的建模,这里面就是让它进行不同的数据增强,我们在预训练算法中,集成了十余种数据增强方法,让它通过不同的数据增强,使得整个模型具有针对不同数据增强的不变性。到目前为止,我们在一个大模型种,搭载模型蒸馏、抽取以及行业大模型,已经适配了大概十余种预训练模型。这十余种模型都是通过我们一个大模型的抽取,蒸馏所得到的,它在相应的行业上,得到了非常大的精度提升。同时也极大地减少了标注代价以及模型迭代周期。


华为云盘古 CV 大模型是如何结合不同行业知识,解决标注数据大的问题?


华为云专家:举一个我们在华为开发者大会(Cloud)上发布的国网重庆永川供电公司电力无人机智能巡检的例子,这就是非常典型的利用盘古 CV 大模型解决行业问题的例子。在国网电力巡检模型开发的过程中,它有海量的数据,标注非常困难,我们做了什么呢?通过我们的视觉预训练算法,在海量的巡检数据上进行预训练,这个预训练是利用了无人机巡检的数十 TB 图像,上百万规模的数量,进行预训练。大模型的参数更大,数据更多,所以它能够更好地建模无人机巡检过程中的图片的细微差异。利用盘古 CV 大模型,它能够提供更好的表征,使得标注代价减少了 80% 以上,这在人力成本上是一个非常大的节省。除了减少标注,还可以一个大模型适配我们电力巡检领域的一百多种缺陷,从而让模型迭代周期大大减少,整个迭代效率大概提升了 10 倍。我们在每次模型迭代过程中反馈给人需要标注的整体的工作量就会越少。通过这两种模式,最终提升了电力无人机智能巡检 AI 模型的整体开发效率。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2021-05-06 12:063164

评论

发布
暂无评论
发现更多内容

以数字人民币为契机 推动人民币国际化进程

CECBC

金融

一周信创舆情观察(3.8~3.14)

统小信uos

万象:百度的海量多媒体信息处理系统

百度Geek说

大数据 搜索引擎 百度 后端 #富媒体#

朱嘉明:比特币开创人类新型财富实验

CECBC

数字货币

告别交通拥堵和数据孤岛,区块链成智慧交通发展新基石

CECBC

交通

java String长度有限制吗?

ddww

霸榜Git!2021年阿里巴巴Java面试权威指南(泰山版)

Java架构追梦

Java 架构 面试 泰山版

2021年新兴的十大区块链技术趋势

CECBC

数字技术

全凭阿里大牛总结的Java面试笔记,首战成功拿蚂蚁offer

Java架构之路

Java 程序员 架构 面试 编程语言

发布两小时,霸榜GitHub!Spring Boot实战文档

Java 编程 程序员 架构师

图解垃圾算法,No,捡垃圾算法

叫练

GC算法 引用计数法 标记清除法

阿里P8大牛手把手教你!这是一份面向Android开发者的复习指南,快来收藏!

欢喜学安卓

android 程序员 面试 移动开发

【实战问题】-- 高并发架构设计以及超领现象解决?

秦怀杂货店

Java 架构 高并发

登顶GLUE榜单的文心又开课了,一站式教学搞懂信息抽取

百度大脑

百度大脑 GLUE 信息抽取 EasyDL

网络编程及通信三要素

五分钟学大数据

大数据 网络编程 28天写作 3月日更

Serverless 时代 DevOps 的最佳打开方式

阿里巴巴云原生

Serverless DevOps 微服务 运维 云原生

315曝光的侵犯个人信息行为可以用区块链来规范吗?

CECBC

区块链

StarRocks在中移物联网PGW实时会话业务领域的应用

StarRocks

大数据 数据分析 物联网 IoT OLAP

霸榜Git!2021年阿里巴巴Java面试权威指南(全彩版)

Java 程序员 面试 架构师

告别交通拥堵和数据孤岛,区块链成智慧交通发展新基石

旺链科技

区块链应用 智慧交通

BI掌柜系统开发案例详情丨BI掌柜开发源码功能

系统开发咨询1357O98O718

趋势预测:2021年五大流行的编程语言

薇薇

Java c php JavaScript Python PEP

全球案例 | Infobip :这家估值十亿美元的公司像初创企业一样规模化发展,像大型企业一样标准化

Atlassian

DevOps Agile Atlassian Jira ITSM

寻找被遗忘的勇气(十八)

Changing Lin

3月日更

2021年技术预测:从云计算到边缘以及两者之间的一切

浪潮云

云计算 边缘计算

前端工程化之H5性能优化篇

百度Geek说

百度 大前端 H5

编译android源码!2021年Android面试心得,学习路线+知识点梳理

欢喜学安卓

android 程序员 面试 移动开发

直击面试!阿里技术官手码12W字面试小册在Github上爆火

Java架构之路

Java 程序员 架构 面试 编程语言

声网Agora发布创业支持计划:聚合50+合作伙伴、11项资源扶持创业者

ToB行业头条

声网 Agora

JDBC—对数据库的通用增删改查

打工人!

Java 数据库事务 MySQ JDBC crud

霸榜Git!2021年阿里巴巴Java面试权威指南(泰山版)

Java架构之路

Java 程序员 架构 面试 编程语言

关于华为云最新发布的盘古大模型,我们提了几个问题_服务革新_InfoQ编辑部_InfoQ精选文章