Linux 之父出席、干货分享、圆桌讨论,精彩尽在 OpenCloudOS 社区开放日,报名戳 了解详情
写点什么

百度 CTO 王海峰:飞桨产业级深度学习平台大幅降低应用门槛

  • 2022 年 6 月 14 日
  • 本文字数:4059 字

    阅读完需:约 13 分钟

百度CTO王海峰:飞桨产业级深度学习平台大幅降低应用门槛

作为 AI 工业大生产的基础平台,深度学习平台下接芯片,上承应用,被视为“智能时代的操作系统”。作为我国首个自主研发的产业级深度学习开源开放平台,飞桨致力于解决深度学习技术发展和大规模产业化中的诸多难题,降低 AI 开发和应用的门槛,助力 AI 普惠。


6 月 9 日晚,北京信息科学与技术国家研究中心系列交叉论坛(第 45 期)线上举行,论坛由中国工程院院士、清华大学信息学院院长、信息国家研究中心主任戴琼海主持,百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰博士作了以“飞桨产业级深度学习开源开发平台”为主题的报告。


飞桨多年来坚持研发核心技术、打造功能丰富的平台、建设兼容并包的生态等,已凝聚 477 万开发者,服务 18 万企事业单位,得到社会各界广泛认可。王海峰在报告中阐释了深度学习平台对人工智能技术发展和大规模产业化的意义,分享了飞桨产业级深度学习开源开放平台最新进展,包括技术与平台的创新成果、文心产业级知识增强大模型、飞桨生态建设,以及飞桨平台在各行各业的应用等,并与院士专家共同探讨了中国深度学习平台在产业、科研、教育中的落地实践。王海峰表示,基于飞桨平台,AI 开发和应用门槛不断降低,人人都可以成为智能应用的开发者。飞桨平台及文心大模型正在赋能千行百业,惠及千家万户。


以下根据王海峰博士报告整理:


报告的题目是《飞桨产业级深度学习开源开放平台》,分为五个部分:引言;飞桨产业级深度学习开源开放平台;飞桨模型库中的文心大模型;飞桨生态;飞桨助力 AI 普惠。

深度学习平台相当于智能时代的操作系统


人工智能已经成为新一轮科技革命和产业变革的重要驱动力量。人类历史上过去 200 多年已经历三次工业革命,每一次工业革命的核心驱动科技,无论是机械技术、电气技术还是信息技术,都具有很强的通用性,而且进入工业大生产阶段以后,也体现出标准化、自动化和模块化的工业大生产特征,可以应用于各行各业,为人类带来了非常大的产业变革。


深度学习为关键核心技术的新一代人工智能如同前三次工业革命的核心驱动科技一样,已经具备了非常强的通用性,并呈现出标准化、自动化、模块化的工业大生产特征。深度学习技术研发周期很长,应用落地的流程也非常复杂,例如,在开发阶段,模型的实现复杂,要同时兼顾灵活和高效难度很大;模型训练阶段,随着模型越来越大,效率如何提升、模型结构如何与硬件匹配降低训练成本等;推理部署阶段,应用环境复杂多样,如何高效适配多端、多平台、多硬件,如何实现高性能推理,等等。深度学习技术的发展和大规模产业化面临诸多难题。典型的深度学习平台具备基础的深度学习框架,包括开发、训练、推理等等,同时也包括各种模型库和辅助工具,形成一个完整的平台,能够有效解决上述问题。深度学习平台下接芯片,上承应用,相当于智能时代的“操作系统”。

飞桨产业级深度学习开源开放平台,大幅降低应用门槛


飞桨平台是我国首个自主研发、开源开放的产业级深度学习平台,具备显著的标准化、自动化和模块化特征,是人工智能工业大生产的基础平台,促进我国人工智能技术发展和大规模产业应用。飞桨产业级深度学习开源开放平台集核心框架、基础模型库、开发套件和工具组件于一体。核心框架包括既有动态图,也有静态图的便捷开发、具备大规模分布式训练技术及产业级数据处理等训练,以及端边云深度优化的高性能推理;基础模型库包含经典的自然语言 PaddleNLP、计算机视觉 PaddleCV、语音技术 PaddleSpeech 和推荐技术 PaddleRec 等,也包含文心大模型;端到端开发套件,如语义理解、图像分类、目标检测等开发套件,以及包含强化学习、联邦学习、图神经网络,和很受关注的科学计算、量子机器学习、生物计算的工具组件,同时也有预训练模型应用工具、全流程开发工具、可视化分析工具以及安全隐私工具、资源管理与调度等等,能够让科技工作者和开发者简洁快速地进行技术创新和应用实践。此外,飞桨也建设了 AI Studio 学习与实训社区,支撑 AI 人才的学习和实践训练。


飞桨平台从以下四个方面持续积累和突破,成为大幅降低 AI 应用门槛的全栈平台,包括开发便捷的深度学习框架、超大规模训练技术、多端多平台高性能推理和产业级模型库。



在开发环节,需兼顾灵活和高效。动态图更灵活,静态图更高效。飞桨实现了动静统一的开发体验,用动态图进行开发,自动转成静态图部署。利用飞桨简洁易用的 API,10 行代码即可实现模型训练。动静统一、高低融合的 API 体系可以大幅降低模型的开发成本。


在核心的训练环节,飞桨研制了通用异构参数服务器技术,可以进行高效混布异构计算、存储、通信,突破单一硬件制约;以及端到端自适应分布式训练技术,能够自动感知硬件环境、实行多维混合的并行策略,以及做异步流水线的执行等等,支持大规模高效训练,降低训练成本。


在推理部署环节,飞桨研制了训推一体工具链,支持从模型训练到模型优化,再到推理部署的全流程效率提升。在模型压缩中,实现了自动化压缩技术,在精度和性能无损情况下,开发代码量大幅降低。对于端、边、云全场景的推理引擎,通过数据处理加速、计算图优化、执行调度开销降低等方式,深度优化性能,大幅降低推理时延,实现了多端多平台的高性能推理。压缩完成之后,硬件会统一接入,全面降低硬件适配成本。飞桨硬件适配统一方案,最底层是芯片,然后是飞桨框架硬件适配层,可在算子、子图、整图、深度学习编译器、神经网络交换格式等进行不同的适配。飞桨已经适配了国内外的各类主流芯片/IP 超过 30 种。面对 AI 模型开发、训练和推理部署的复杂流程,飞桨提供训推一体导航图,可以让开发者基于导航图,找到最适合自己应用的训练模式、推理部署的工具等等,进而可以非常便捷快速地开发自己的应用。

产业级模型库方面,如今飞桨开源的模型数量已超过 500 个,涵盖不同层面,既有基础的自然语言处理、计算机视觉、推荐、语音等,也包括各种工具组件,可以让开发者便捷调用。此外,飞桨还提供了产业模型的选型工具,为应用场景自动选择最佳模型,更好地匹配产业落地的诉求,提供全流程的选型建议以及配套范例的教程。

飞桨模型库:知识增强的产业级文心大模型


文心大模型是飞桨模型库的重要组成部分,包含基础大模型、任务大模型、行业大模型等产业级知识增强大模型体系,以及工具平台、API 和创意社区助力大模型的高效应用。


文心知识增强大模型从海量数据和大规模知识中融合学习,效率更高,效果更好,理解和生成能力显著提升。2022 年高考期间,文心大模型加持的 AI 数字人度晓晓挑战高考作文,围绕“本手、妙手、俗手”, 秒级成文,写出了题为《苦练本手,方能妙手随成》的作文。根据历年情况,度晓晓的作文得分超过 75%的高考考生。

文心知识增强大模型在国际排行榜 SuperGLUE 上夺冠,以相对更小的参数规模取得更好的效果。传统方法针对不同的自然语言处理任务,比如信息抽取、情感分析、问答等等,需要训练不同的模型,是一种分散化的模型开发模式;知识增强大模型可以同时实现多任务的训练,是集约化的模型开发模式。在基础大模型的基础上,面向不同任务、不同场景做精调,可以得到非常好的效果。因此,知识增强大模型具有很好的通用性和泛化性,配置相应的工具平台,可以大幅降低 AI 开发与应用门槛。在文心的基础大模型中,鹏城-百度·文心是百度和鹏城实验室联合研发的全球首个知识增强千亿大模型,在 60 多项任务取得了最好效果。

任务知识增强大模型 ERNIE 3.0 Zeus,从海量文本数据、大规模知识图谱和不同任务中融合学习,针对不同的任务做知识增强,效果大幅提升。计算机视觉领域,多任务统一的视觉大模型,在分类、检索、分割、检测等 20 多项视觉任务上取得了很好的效果。知识增强的跨模态大模型,实现了跨模态语义的统一表示与关联,进行跨模态语义的理解与生成,如 ERNIE-VilG 能够进行图文双向生成,ERNIE-GeoL 融合“地理-语言”关联知识,大幅提升地理位置相关任务效果等。除了跨模态,还有跨领域大模型,如生物计算大模型,化合物表征学习 HELIX-GEM,是首个几何构象增强的化合物表征模型,在 14 项药物相关的任务上取得良好效果;蛋白质结构分析 HELIX-Fold 模型,全面适配国产软硬件环境,在国产硬件上训练千万级别蛋白效率更高。文心大模型也积极与产业合作,促进大模型在行业中的应用。在能源电力行业,百度和国网联合研发了国网-百度·文心大模型。基于通用文心大模型,在海量数据中挖掘电力行业数据,与国网专家们一起,引入电力业务积累的样本数据和特有知识。训练中,结合双方在预训练算法和电力领域业务与算法的经验,设计电力领域实体判别、电力领域文档判别等算法作为预训练任务,让文心大模型深入学习电力专业知识,在国网场景任务应用效果提升。相似的思路,在金融领域,百度和浦发也联合研发了浦发-百度·文心大模型,效果显著。

协同共建生态,飞桨平台已凝聚 477 万开发者


飞桨多年来坚持研发核心技术、打造功能丰富的平台、建设兼容并包的生态等,已凝聚 477 万开发者,服务了 18 万企事业单位,创建了 56 万个模型,得到社会各界广泛认可。


人才培养方面,飞桨与高校、科研院所等合作,助力复合型的 AI 人才培养。飞桨已经为 700 多所高校培养了 3000 多名教师,合作出版了系列基于产业实践的 AI 教辅书,组织国内外系列 AI 技术竞赛等。硬件生态方面,飞桨与硬件伙伴的合作不断深化。2020 年,与硬件伙伴联合发起飞桨硬件生态圈,促进 AI 产业链的适配升级;2021 年,飞桨与硬件伙伴软硬一体联合优化,适配飞桨的芯片/IP 超过 30 种;2022 年,合作进一步深化,全面共创,协同推出厂商版飞桨框架、建设模型库、开发课程,更好地服务开发者,促进生态繁荣共赢。

飞桨及文心大模型赋能千行百业,助力 AI 普惠


飞桨平台及文心大模型的创新发展,不断降低 AI 开发和应用的门槛,越来越多的人都可以成为智能应用的开发者。如 10 岁小学生开发了检测水果新鲜度的应用;铁路钳工开发了火车车身字符及标识检测的应用;大学老师开发了花样滑冰的人体动作分析的应用等等。

基于飞桨平台,人工智能技术已在制造、城市、能源、金融、媒体等行业广泛应用,并催生了 AI 训练师、5G 云代驾等新业态、新模式。


飞桨平台及文心大模型正在赋能千行百业,惠及千家万户。

2022 年 6 月 14 日 10:56992
用户头像

发布了 385 篇内容, 共 113.4 次阅读, 收获喜欢 524 次。

关注

评论

发布
暂无评论
发现更多内容

如何有效提高技能?我推荐《刻意练习》

老胡爱分享

个人成长 练习

了解JS压缩图片,这一篇就够了

华为云开发者联盟

Java html5 vue.js 大前端 npm

python操作word文件

wjchenge

Python word

高并发,你真的了解吗?

华为云开发者联盟

负载均衡 软件 高并发 操作系统 服务器集群

全面剖析PHP-FPM+Nginx通信原理

书旅

nginx 正向代理与反向代理 PHP-FPM

技术分享丨数据仓库的建模与ETL实践技巧

华为云开发者联盟

数据仓库 数据分析 数据模型 GaussDB ETL算法

C++ 借来的资源,如何还的潇洒?

小林coding

c c++ 编程 编程习惯 内存管理

【得物技术】乘风破浪—优雅代码四部曲

得物技术

Java 代码规范

PHPStrom安装Xdebug及使用

书旅

php Xdebug PHPStrom

C++ 互斥锁和条件变量的性能比较

小林coding

c c++ 编程 并发编程

Docker 禁止美国“实体清单”主体使用,Docker 开源项目应不受影响

程序员生活志

Docker 互联网热点

最受 IT 公司欢迎的 30 款开源软件

程序员生活志

开源

5步教你完成小熊派开发板贴片

华为云开发者联盟

后端 开发工具 华为云 小熊派 开发板

昨梦记

波波夫

SICP,我的函数式编程启蒙书

Kurtis Moxley

读书 函数式编程

MECE分析法

陈磊@Criss

测者陈磊

对于一款软件而言,完备的功能固然重要,但交互体验也不该被忽视

Philips

Java 敏捷开发 UI .net core 交互设计

学过 C++ 的你,你不得不知的这 10 条细节

小林coding

c c++ 编程 编程之路

实战分享丨MySQL 与Django版本匹配相关经验

华为云开发者联盟

MySQL 数据库 django 华为云

面经手册 · 第5篇《看图说话,讲解2-3平衡树「红黑树的前身」》

小傅哥

Java 数据结构 小傅哥 红黑树 2-3树

二叉树-四种遍历方式的 Java 实现

多选参数

二叉树 遍历

AI+云,数字金融掘金客户微细分

人称T客

面试官问:运行时的内存布局

Java小咖秀

Java JVM

年轻的樵夫哟,你掉的是这个免费 8 核 4G 公网服务器,还是这个随时可用的 Docker 实验平台?

newbe36524

Docker 微服务 .net core ASP.NET Core

架构到底是什么?

架构精进之路

架构

一、GraphQL,你准备好了么?

星期35

推荐一款可视化+NoteBook工具

数据社

大数据 可视化 Zeppelin notebook

HTTP方式文件分片断点下载

xcbeyond

Java 断点续传 下载 Range

KPI考核存在的问题

石云升

读书笔记 考核 KPI 数字化管理

初识WebRTC

soolaugust

WebRTC

我们是如何逐渐变普通的?

架构精进之路

个人成长 认知提升

GPU容器虚拟化:用户态和内核态的技术和实践详解

GPU容器虚拟化:用户态和内核态的技术和实践详解

百度CTO王海峰:飞桨产业级深度学习平台大幅降低应用门槛_文化 & 方法_百度飞桨_InfoQ精选文章