NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

百度 CTO 王海峰:飞桨产业级深度学习平台大幅降低应用门槛

  • 2022-06-14
  • 本文字数:4059 字

    阅读完需:约 13 分钟

百度CTO王海峰:飞桨产业级深度学习平台大幅降低应用门槛

作为 AI 工业大生产的基础平台,深度学习平台下接芯片,上承应用,被视为“智能时代的操作系统”。作为我国首个自主研发的产业级深度学习开源开放平台,飞桨致力于解决深度学习技术发展和大规模产业化中的诸多难题,降低 AI 开发和应用的门槛,助力 AI 普惠。


6 月 9 日晚,北京信息科学与技术国家研究中心系列交叉论坛(第 45 期)线上举行,论坛由中国工程院院士、清华大学信息学院院长、信息国家研究中心主任戴琼海主持,百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰博士作了以“飞桨产业级深度学习开源开发平台”为主题的报告。


飞桨多年来坚持研发核心技术、打造功能丰富的平台、建设兼容并包的生态等,已凝聚 477 万开发者,服务 18 万企事业单位,得到社会各界广泛认可。王海峰在报告中阐释了深度学习平台对人工智能技术发展和大规模产业化的意义,分享了飞桨产业级深度学习开源开放平台最新进展,包括技术与平台的创新成果、文心产业级知识增强大模型、飞桨生态建设,以及飞桨平台在各行各业的应用等,并与院士专家共同探讨了中国深度学习平台在产业、科研、教育中的落地实践。王海峰表示,基于飞桨平台,AI 开发和应用门槛不断降低,人人都可以成为智能应用的开发者。飞桨平台及文心大模型正在赋能千行百业,惠及千家万户。


以下根据王海峰博士报告整理:


报告的题目是《飞桨产业级深度学习开源开放平台》,分为五个部分:引言;飞桨产业级深度学习开源开放平台;飞桨模型库中的文心大模型;飞桨生态;飞桨助力 AI 普惠。

深度学习平台相当于智能时代的操作系统


人工智能已经成为新一轮科技革命和产业变革的重要驱动力量。人类历史上过去 200 多年已经历三次工业革命,每一次工业革命的核心驱动科技,无论是机械技术、电气技术还是信息技术,都具有很强的通用性,而且进入工业大生产阶段以后,也体现出标准化、自动化和模块化的工业大生产特征,可以应用于各行各业,为人类带来了非常大的产业变革。


深度学习为关键核心技术的新一代人工智能如同前三次工业革命的核心驱动科技一样,已经具备了非常强的通用性,并呈现出标准化、自动化、模块化的工业大生产特征。深度学习技术研发周期很长,应用落地的流程也非常复杂,例如,在开发阶段,模型的实现复杂,要同时兼顾灵活和高效难度很大;模型训练阶段,随着模型越来越大,效率如何提升、模型结构如何与硬件匹配降低训练成本等;推理部署阶段,应用环境复杂多样,如何高效适配多端、多平台、多硬件,如何实现高性能推理,等等。深度学习技术的发展和大规模产业化面临诸多难题。典型的深度学习平台具备基础的深度学习框架,包括开发、训练、推理等等,同时也包括各种模型库和辅助工具,形成一个完整的平台,能够有效解决上述问题。深度学习平台下接芯片,上承应用,相当于智能时代的“操作系统”。

飞桨产业级深度学习开源开放平台,大幅降低应用门槛


飞桨平台是我国首个自主研发、开源开放的产业级深度学习平台,具备显著的标准化、自动化和模块化特征,是人工智能工业大生产的基础平台,促进我国人工智能技术发展和大规模产业应用。飞桨产业级深度学习开源开放平台集核心框架、基础模型库、开发套件和工具组件于一体。核心框架包括既有动态图,也有静态图的便捷开发、具备大规模分布式训练技术及产业级数据处理等训练,以及端边云深度优化的高性能推理;基础模型库包含经典的自然语言 PaddleNLP、计算机视觉 PaddleCV、语音技术 PaddleSpeech 和推荐技术 PaddleRec 等,也包含文心大模型;端到端开发套件,如语义理解、图像分类、目标检测等开发套件,以及包含强化学习、联邦学习、图神经网络,和很受关注的科学计算、量子机器学习、生物计算的工具组件,同时也有预训练模型应用工具、全流程开发工具、可视化分析工具以及安全隐私工具、资源管理与调度等等,能够让科技工作者和开发者简洁快速地进行技术创新和应用实践。此外,飞桨也建设了 AI Studio 学习与实训社区,支撑 AI 人才的学习和实践训练。


飞桨平台从以下四个方面持续积累和突破,成为大幅降低 AI 应用门槛的全栈平台,包括开发便捷的深度学习框架、超大规模训练技术、多端多平台高性能推理和产业级模型库。



在开发环节,需兼顾灵活和高效。动态图更灵活,静态图更高效。飞桨实现了动静统一的开发体验,用动态图进行开发,自动转成静态图部署。利用飞桨简洁易用的 API,10 行代码即可实现模型训练。动静统一、高低融合的 API 体系可以大幅降低模型的开发成本。


在核心的训练环节,飞桨研制了通用异构参数服务器技术,可以进行高效混布异构计算、存储、通信,突破单一硬件制约;以及端到端自适应分布式训练技术,能够自动感知硬件环境、实行多维混合的并行策略,以及做异步流水线的执行等等,支持大规模高效训练,降低训练成本。


在推理部署环节,飞桨研制了训推一体工具链,支持从模型训练到模型优化,再到推理部署的全流程效率提升。在模型压缩中,实现了自动化压缩技术,在精度和性能无损情况下,开发代码量大幅降低。对于端、边、云全场景的推理引擎,通过数据处理加速、计算图优化、执行调度开销降低等方式,深度优化性能,大幅降低推理时延,实现了多端多平台的高性能推理。压缩完成之后,硬件会统一接入,全面降低硬件适配成本。飞桨硬件适配统一方案,最底层是芯片,然后是飞桨框架硬件适配层,可在算子、子图、整图、深度学习编译器、神经网络交换格式等进行不同的适配。飞桨已经适配了国内外的各类主流芯片/IP 超过 30 种。面对 AI 模型开发、训练和推理部署的复杂流程,飞桨提供训推一体导航图,可以让开发者基于导航图,找到最适合自己应用的训练模式、推理部署的工具等等,进而可以非常便捷快速地开发自己的应用。

产业级模型库方面,如今飞桨开源的模型数量已超过 500 个,涵盖不同层面,既有基础的自然语言处理、计算机视觉、推荐、语音等,也包括各种工具组件,可以让开发者便捷调用。此外,飞桨还提供了产业模型的选型工具,为应用场景自动选择最佳模型,更好地匹配产业落地的诉求,提供全流程的选型建议以及配套范例的教程。

飞桨模型库:知识增强的产业级文心大模型


文心大模型是飞桨模型库的重要组成部分,包含基础大模型、任务大模型、行业大模型等产业级知识增强大模型体系,以及工具平台、API 和创意社区助力大模型的高效应用。


文心知识增强大模型从海量数据和大规模知识中融合学习,效率更高,效果更好,理解和生成能力显著提升。2022 年高考期间,文心大模型加持的 AI 数字人度晓晓挑战高考作文,围绕“本手、妙手、俗手”, 秒级成文,写出了题为《苦练本手,方能妙手随成》的作文。根据历年情况,度晓晓的作文得分超过 75%的高考考生。

文心知识增强大模型在国际排行榜 SuperGLUE 上夺冠,以相对更小的参数规模取得更好的效果。传统方法针对不同的自然语言处理任务,比如信息抽取、情感分析、问答等等,需要训练不同的模型,是一种分散化的模型开发模式;知识增强大模型可以同时实现多任务的训练,是集约化的模型开发模式。在基础大模型的基础上,面向不同任务、不同场景做精调,可以得到非常好的效果。因此,知识增强大模型具有很好的通用性和泛化性,配置相应的工具平台,可以大幅降低 AI 开发与应用门槛。在文心的基础大模型中,鹏城-百度·文心是百度和鹏城实验室联合研发的全球首个知识增强千亿大模型,在 60 多项任务取得了最好效果。

任务知识增强大模型 ERNIE 3.0 Zeus,从海量文本数据、大规模知识图谱和不同任务中融合学习,针对不同的任务做知识增强,效果大幅提升。计算机视觉领域,多任务统一的视觉大模型,在分类、检索、分割、检测等 20 多项视觉任务上取得了很好的效果。知识增强的跨模态大模型,实现了跨模态语义的统一表示与关联,进行跨模态语义的理解与生成,如 ERNIE-VilG 能够进行图文双向生成,ERNIE-GeoL 融合“地理-语言”关联知识,大幅提升地理位置相关任务效果等。除了跨模态,还有跨领域大模型,如生物计算大模型,化合物表征学习 HELIX-GEM,是首个几何构象增强的化合物表征模型,在 14 项药物相关的任务上取得良好效果;蛋白质结构分析 HELIX-Fold 模型,全面适配国产软硬件环境,在国产硬件上训练千万级别蛋白效率更高。文心大模型也积极与产业合作,促进大模型在行业中的应用。在能源电力行业,百度和国网联合研发了国网-百度·文心大模型。基于通用文心大模型,在海量数据中挖掘电力行业数据,与国网专家们一起,引入电力业务积累的样本数据和特有知识。训练中,结合双方在预训练算法和电力领域业务与算法的经验,设计电力领域实体判别、电力领域文档判别等算法作为预训练任务,让文心大模型深入学习电力专业知识,在国网场景任务应用效果提升。相似的思路,在金融领域,百度和浦发也联合研发了浦发-百度·文心大模型,效果显著。

协同共建生态,飞桨平台已凝聚 477 万开发者


飞桨多年来坚持研发核心技术、打造功能丰富的平台、建设兼容并包的生态等,已凝聚 477 万开发者,服务了 18 万企事业单位,创建了 56 万个模型,得到社会各界广泛认可。


人才培养方面,飞桨与高校、科研院所等合作,助力复合型的 AI 人才培养。飞桨已经为 700 多所高校培养了 3000 多名教师,合作出版了系列基于产业实践的 AI 教辅书,组织国内外系列 AI 技术竞赛等。硬件生态方面,飞桨与硬件伙伴的合作不断深化。2020 年,与硬件伙伴联合发起飞桨硬件生态圈,促进 AI 产业链的适配升级;2021 年,飞桨与硬件伙伴软硬一体联合优化,适配飞桨的芯片/IP 超过 30 种;2022 年,合作进一步深化,全面共创,协同推出厂商版飞桨框架、建设模型库、开发课程,更好地服务开发者,促进生态繁荣共赢。

飞桨及文心大模型赋能千行百业,助力 AI 普惠


飞桨平台及文心大模型的创新发展,不断降低 AI 开发和应用的门槛,越来越多的人都可以成为智能应用的开发者。如 10 岁小学生开发了检测水果新鲜度的应用;铁路钳工开发了火车车身字符及标识检测的应用;大学老师开发了花样滑冰的人体动作分析的应用等等。

基于飞桨平台,人工智能技术已在制造、城市、能源、金融、媒体等行业广泛应用,并催生了 AI 训练师、5G 云代驾等新业态、新模式。


飞桨平台及文心大模型正在赋能千行百业,惠及千家万户。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2022-06-14 10:563070
用户头像
李冬梅 加V:busulishang4668

发布了 814 篇内容, 共 382.1 次阅读, 收获喜欢 1002 次。

关注

评论

发布
暂无评论
发现更多内容

性能再升级,XMeter Cloud专业版正式上线

EMQ映云科技

物联网 IoT 云服务 mqtt 企业号 1 月 PK 榜

Linux常用命令

代码的路

Linux

Apache IoTDB 中的时间精度 | 铁头乔分享

Apache IoTDB

站酷基于服务网格 ASM 的生产实践

阿里巴巴中间件

阿里云 云原生 服务网格

易观:2022年中国产业数字化发展成熟度指数报告

易观分析

数字化 产业 报告

算力攻坚,视频云背后的「硬」核玩家

云布道师

阿里云 视频云

年中盘点 | 2022年,PaaS 再升级

亚马逊云科技 (Amazon Web Services)

PaaS 亚马逊云科技 Builder 专栏

不写代码就实现了自动化测试,面试官都惊呆了!Apipost的自动化测试功能强烈推荐

徐天

自动化测试 apipost

软件测试/测试开发 | Jenkins job 机制该如何使用?

测试人

软件测试 jenkins 自动化测试 测试开发

长安汽车*IoTDB | 构建1.5亿时间序列车况数据处理方案,查询稳定实现毫秒级返回

Apache IoTDB

等保堡垒机选择哪个厂家好?咨询电话多少?

行云管家

等保 堡垒机 等级保护

如何管理项目干系人?

敏捷开发

项目管理 项目干系人

【碎碎念】下雪了

Firshare

年终总结

跨域:后端工程师最熟悉的陌生“人”

华为云开发者联盟

后端 华为云 跨域 企业号 1 月 PK 榜

Halcon快速入门教程

嵌入式视觉

定位 算子 测量 HALCON 工业智慧视觉

怎样快速地迁移 MySQL 中的数据?

C++后台开发

MySQL 数据库 中间件 后端开发 C++开发

华为云发布CodeArts Check代码检查服务 守护软件质量和安全

科技热闻

新一代 IT 服务管理平台 DOSM,助力企业数字化转型

云智慧AIOps社区

数字化转型 运维自动化 智能运维 云智慧 IT管理

Linux安装tensorflow

代码的路

Linux

对话 BitSail Contributor | 姚泽宇:新生火焰,未来亦可燎原

字节跳动数据平台

大数据 开源 字节跳动 数据引擎

屡获殊荣|旺链科技亮相2022中国双链年会并喜获佳绩

旺链科技

区块链 区块链技术 双链年会

当你输入网址,小手一点,然后发生了什么

华为云开发者联盟

前端 HTTP 华为云 企业号 1 月 PK 榜

Apache IoTDB & SeaTunnel 联合 Meetup | 10月15日 线上直播预约开启!

Apache IoTDB

pip安装时 fatal error C1083 无法打开包括文件 “io.h” No such file or directory

代码的路

Python

NFTScan 与 AlienSwap 达成战略合作伙伴,双方在 NFT 数据层面展开合作

NFT Research

NFT

【HA小知识】DRBD数据不一致怎么办?怎么处理?

行云管家

高可用 ha 高可用软件

软件测试/测试开发 | 做到这几点,你也能成为 BAT 的抢手人!

测试人

软件测试 自动化测试 测试开发 测试工程师

redis.conf 7.0 生产配置详解,全网最全

码哥字节

NoSQL 数据库 redis 底层原理 Redis 7

软件测试/测试开发 | Jenkins 持续集成体系介绍

测试人

软件测试 持续集成 jenkins 自动化测试 测试开发

从TMMI角度谈谈质量度量

老张

软件测试 质量度量

服务网格|如何使用 Amesh 配置插件

API7.ai 技术团队

Service Mesh 服务网格 APISIX 网关 Kubernetes Serverless

百度CTO王海峰:飞桨产业级深度学习平台大幅降低应用门槛_文化 & 方法_百度飞桨_InfoQ精选文章