AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

关于华为云最新发布的盘古大模型,我们提了几个问题

  • 2021-05-06
  • 本文字数:2796 字

    阅读完需:约 9 分钟

关于华为云最新发布的盘古大模型,我们提了几个问题

4 月 25 日,在华为开发者大会(Cloud)上,华为云发布了盘古系列超大规模预训练模型,包括 30 亿参数的全球最大视觉(CV)预训练模型,以及华为云与循环智能、鹏城实验室联合开发的千亿参数、40TB 训练数据的(NLP)预训练模型。



其中,盘古 NLP 大模型由华为云、循环智能和鹏城实验室联合开发,具备领先的语言理解和模型生成能力:在权威的中文语言理解评测基准 CLUE 榜单中,盘古 NLP 大模型在总排行榜及分类、阅读理解单项均排名第一,刷新三项榜单世界历史纪录;总排行榜得分 83.046,多项子任务得分业界领先, 向人类水平(85.61)迈进了一大步。



盘古 NLP 大模型位列 CLUE 榜单总排行榜第一


华为云人工智能领域首席科学家、IEEE Fellow 田奇表示:“预训练大模型是解决 AI 应用开发定制化和碎片化的重要方法。华为云盘古大模型可以实现一个 AI 大模型在众多场景通用、泛化和规模化复制,减少对数据标注的依赖,并使用 ModelArts 平台,让 AI 开发由作坊式转变为工业化开发的新模式。”外界对华为云盘古大模型充满了好奇,在华为开发者大会(Cloud)期间,参与大模型开发的两位华为云专家回答了以下几个大家关心的问题。


 作为一个开发者,请问盘古大模型的易用性如何?使用成本有多高?


华为云专家:预训练模型设计的目的就是为了让大家降低使用成本。大模型的预训练过程中,成本是比较高的,但这个成本不需要开发者来承担。开发者在使用盘古大模型的时候,它本身的易用性会使得使用成本进一步降低,达到一个比较合适的水平。比如说,我们会开发出一些比较通俗易懂的 Pipeline,如果你是有一定基础的开发人员,你可以从我们的 Pipeline 当中去做更多的定制化的开发,更好地去释放预训练模型的能力。如果你只是一个 AI 开发小白,想用大模型去做 AI 简单的开发,我们也会给你更加通俗易懂的界面,让大家能够用一些拖拉拽的方式使用盘古大模型。总体来讲,大家在使用预训练模型的时候,计算时长、调参所需要重复的代价等都会被降到很低,总体来讲是对开发者非常友好的。


 对于新入门计算机视觉的人来说,需要掌握什么哪些知识才能快速进入到学习和研发中?


华为云专家:人工智能、计算机视觉等经过几十年的发展,到现在已经拥有很庞大的知识体系。如果一个初学者想要把这些东西都了解以后再开始做研究,效率会稍微有点低。我给大家的建议是,你在学习过程当中,可以先找准一个问题。刚开始的时候,这个问题可能是相对初级的问题,但一定有具体的场景。比如想做弱监督学习,一般就是遇到某个实际的问题,它确实需要弱监督算法。但是我是不是一定要掌握全监督才能去做弱监督呢?并不是这样的。你可以先去查阅一些资料,了解当前的弱监督学习方法,它的基线是什么,它的前沿在哪里。然后你可以开始做一些简单的实验。实验的过程当中,一般会遇到一些困难或者一些疑惑。解决这些困难和疑惑的过程,一般就会把你引导到它的基础,比如说全监督到底是怎么做的。当你有了更多基础以后,回过头来,也会发现你对当前做的算法有了一个更好的理解。所以我的建议是大家可以找一本机器学习、计算机视觉这类介绍比较深入的教材去看,但是不要局限于这个教材:一边做具体的课题,一边去学习知识,效率会比较高。


盘古 CV 大模型有哪些成功的落地?跟业界相比处在什么位置?


华为云专家:盘古 CV 大模型,结合相关流程化开发,已经在华为内部以及其他合作项目上,有 100+ 成功落地,这些方向涵盖了各行各业,包括工业视觉、网络审查、零售商超,以及医疗等场景,都获得了一些相较于之前不使用预训练大模型更高的结果。在某些场景上,比如遥感影像分割,我们通过设计针对遥感影像的预训练算法,在没有增加额外标注代价的情况下,达到了最多 12% 的分割精度提升。还有另外一个比较有意思的现象,我们使用超大规模图像进行的预训练模型具有更好的可迁移性,即直接把这样一个模型,迁移到了工业质检的缺陷上进行推理,我们非常欣喜地发现,我们在下游数据集上没有进行任何微调,但是在工业缺陷检测上,获得了比之前我的模型不停地高度的优化,甚至利用下游的数据微调更好的结果,这个结果基本上会高出 3 到 4 个百分点。这个启发我们,模型数据一旦够多,其实它的泛化能力能够获得更好的保障。


第二,我们是国内最早做视觉预训练大模型的公司之一。在国外是 Facebook 和谷歌从 2019 年开始在图像上做了一些应用。我们视觉预训练模型大概从 2019 年底的时候就开始了,通过自研的一些列改进算法,我们首次在基于 ImageNet 的无监督预训练模型线性分类精度上达到了全监督基线的水平,同时在小样本学习上大大领先现有技术,这些都是业界领先的成果。


华为的预训练是采用什么类型数据和学习任务?盘古 CV 大模型如何保证端侧性能?


华为云专家:针对视觉图像不同角度,以及不同场景的变化,盘古 CV 大模型采取的方法非常简单。一,我们可能有海量数据集,这个数据集规模已经达到了亿级甚至十亿级这样的规模,我们相信这个海量的数据集,它能够建模实际场景图像的方方面面。二,我们采取了什么样的学习方式。其实它的一个核心思想,就是 2019 年开始,比较火的基于全局的对比度自监督学习方法。我们在这上面做了很多改进。包括如何来利用弱标签信息,如何把全局的信息拓展到局部来更好建模局部相关关系。同时也会呼应刚才提到的,如何处理不同视角、不同尺度图像问题,怎么来让它进行高效的建模,这里面就是让它进行不同的数据增强,我们在预训练算法中,集成了十余种数据增强方法,让它通过不同的数据增强,使得整个模型具有针对不同数据增强的不变性。到目前为止,我们在一个大模型种,搭载模型蒸馏、抽取以及行业大模型,已经适配了大概十余种预训练模型。这十余种模型都是通过我们一个大模型的抽取,蒸馏所得到的,它在相应的行业上,得到了非常大的精度提升。同时也极大地减少了标注代价以及模型迭代周期。


华为云盘古 CV 大模型是如何结合不同行业知识,解决标注数据大的问题?


华为云专家:举一个我们在华为开发者大会(Cloud)上发布的国网重庆永川供电公司电力无人机智能巡检的例子,这就是非常典型的利用盘古 CV 大模型解决行业问题的例子。在国网电力巡检模型开发的过程中,它有海量的数据,标注非常困难,我们做了什么呢?通过我们的视觉预训练算法,在海量的巡检数据上进行预训练,这个预训练是利用了无人机巡检的数十 TB 图像,上百万规模的数量,进行预训练。大模型的参数更大,数据更多,所以它能够更好地建模无人机巡检过程中的图片的细微差异。利用盘古 CV 大模型,它能够提供更好的表征,使得标注代价减少了 80% 以上,这在人力成本上是一个非常大的节省。除了减少标注,还可以一个大模型适配我们电力巡检领域的一百多种缺陷,从而让模型迭代周期大大减少,整个迭代效率大概提升了 10 倍。我们在每次模型迭代过程中反馈给人需要标注的整体的工作量就会越少。通过这两种模式,最终提升了电力无人机智能巡检 AI 模型的整体开发效率。

2021-05-06 12:063946

评论

发布
暂无评论
发现更多内容

Cisco Modeling Labs (CML) 2.7.2 发布下载,新增功能概览

sysin

Cisco CML

Java 中堆内存和栈内存上的数据分布和特点

emanjusaka

Java stack heap

防城港等保测评机构有哪些?在哪里?

行云管家

等保 等级保护 防城港

Qt使用kingbase数据库存储数据(完成考勤系统数据增删改查)

DS小龙哥

9月日更

直播预约丨《袋鼠云大数据实操指南》No.6:建设指标管理平台 解锁企业数据价值

袋鼠云数栈

大数据

Invicti v24.9.0 发布下载,新增功能概览

sysin

invicti

Parallels Desktop 20 发布下载,macOS Sequoia 和 Windows 11 24H2 支持准备就绪

sysin

macos Parallels Desktop

PoS 和 PoW 矿机系统区块链公链开发成本分析

区块链软件开发推广运营

dapp开发 链游开发 NFT开发 公链开发 代币开发

StarRocks 培训课程重磅上线!专家出品,助你升级打怪不走弯路!

StarRocks

数据飞轮转进快递行业 能够为企业带来哪些新想象

字节跳动数据平台

数字化转型 云服务 数据平台 火山引擎 数据飞轮

曝字节 AI 硬件团队首款自研产品为智能耳机,与豆包联动;OpenAI 神秘新模型或将在两周内发布丨 RTE 开发者日报

声网

Meme“淘金”热潮下:Meme发射平台的安全风险分析

区块链软件开发推广运营

交易所开发 dapp开发 区块链开发 链游开发 NFT开发

Cisco Catalyst 9100 无线接入点 IOS XE 17.15.1 发布下载,新增功能概览

sysin

Cisco ap 思科 IOS XE 9100

亚信安慧AntDB-M 只读事务提交优化

亚信AntDB数据库

AntDB

什么是APT攻击,如何处理

德迅云安全杨德俊

KaiwuDB X 临沂大数据局 | 重点车辆一体化监管,助力你我的安全出行 🤝

KaiwuDB

KaiwuDB 分布式多模数据库 重车辆监管平台

JMeter 介绍与安装

霍格沃兹测试开发学社

KaiwuDB 受邀亮相 2024 数博会

KaiwuDB

数博会 KaiwuDB

人事管理这些“坑”,你有没有踩过?

天津汇柏科技有限公司

人工智能 低代码开发 人事管理系统

从数据洞察到智能决策:合合信息&infiniflow RAG技术的实战案例分享

汀丶人工智能

rag

IP纯净度对跨境电商有哪些影响

IPIDEA全球HTTP

Spring webflux注解:提供全面的JPA注解应用案例(必须收藏)

肖哥弹架构

spring spring webflux

电脑越用越慢,有什么好的解决方案?

上海锐起科技

健康产业怎么定义?需要用到堡垒机吗?

行云管家

网络安全 数据安全 堡垒机 健康产业

性能测试 | JMeter 介绍与安装

测吧(北京)科技有限公司

测试

《黑神话:悟空》下的科技众生相

脑极体

AI

公开课 | 金九银十,测试开发面试秘籍大公开!

测吧(北京)科技有限公司

测试

报名啦|PolarDB数据库创新设计赛(天池杯)等你来战

阿里云数据库开源

数据库大赛 国赛 阿里云PolarDB

性能测试 | JMeter 介绍与安装

测试人

软件测试

nodejs中路径相关api

秃头小帅oi

关于华为云最新发布的盘古大模型,我们提了几个问题_服务革新_InfoQ编辑部_InfoQ精选文章