时隔16年JeffBarr重返10.23-25 QCon上海站,带你看透AI如何重塑软件开发! 了解详情
写点什么

百度飞桨 PaddleCV 全景图曝光 视觉技术能力三方面重磅更新

  • 2020-03-25
  • 本文字数:2471 字

    阅读完需:约 8 分钟

百度飞桨PaddleCV全景图曝光 视觉技术能力三方面重磅更新

2020 年,“新基建”正给中国科技发展带来新的重大机遇,人工智能基础设施面临全面升级。深度学习框架正是推动产业智能化进阶的重要基础设施。近日,深度学习开源平台——百度飞桨,在智能视觉领域实现多项能力升级。


此次,PaddleCV 最新全景图首度曝光。其中,PaddleDetection、PaddleSeg、PaddleSlim 和 Paddle Lite 重磅升级;全新发布 3D 视觉和 PLSC 超大规模分类 2 项能力。同时,PaddleCV 新增了 15 个在产业实践中广泛应用的算法,整体高质量算法数量达到 73 个;35 个高精度预训练模型,总数达到 203 个。



PaddleCV 全景图


如全景图所示,PaddleCV 主要从三方面更新核心技术能力:


第一,核心技术能力升级,基于产业实践真实场景打磨,多场景视觉任务上模型准确率全面提升。


PaddleDetection 模块种类与性能全面提升,YOLOv3 大幅增强,精度提升 4.3%,训练提速 40%,推理提速 21%;人脸检测模型 BlazeFace 新增 NAS 版本,体积压缩 3 倍,推理速度提速 122%;新增 IoU 损失函数类型,精度再提升 1%,不增加预测耗时。在模型方面,新增 3 个类型,基于 COCO 数据集的精度最高开源模型 CBNet,高达 53.3%;Libra-RCNN 模型精度提升 2%;Open Images V5 成为目标检测比赛最佳单模型。


PaddleSeg 新增基于 HRNet 的高精度图像分割模型,其最大的特点是将图像在整个处理过程中保持高分辨率特征,这和大多数模型所使用的从高分辨率到低分辨率网络产生的低分辨率特征中恢复高分辨率特征有所不同。同时,获得实时语义分割模型 Fast-SCNN,它的最大特点是“小快灵”,即该模型在推理计算时仅需要较小的 FLOPs,就可以快速推理出一个不错的结果。



Fast-SCNN 网络结构图


PaddleCV 还新增了 3D 点云分类、分割和检测的 PointNet++和 PointRCNN 模型。PointNet++在 ModelNet40 数据集上,分类精度高达 90%;PointRCNN 在 KITTI(Car)的 Easy 数据子集上,检测精度高达 86.66%。和此前 PaddleCV 支持的数十种模型一样,基于飞桨框架,开发者无需全新开发代码,只要进行少量修改,就能快速在工业领域实现 3D 图像的分类、语义分割和目标检测任务。


图像分类新增预训练模型 SENet-vd、Res2Net、HRNet 系列模型。Res2Net 可以更细粒度表示多尺度特征,HRNet 全程都可以保持高分辨率。截至目前,飞桨图像分类模型包含了 ResNet、ResNet-vd、ResNet_ACNet、MobileNet、ShuffleNet、EfficientNet 等系列近 20 类图像分类算法,105 个预训练模型,也可供目标检测、图像分割等任务应用。其中,ResNet-vd 系列相比 ResNet 系列模型,在不增加推理耗时的情况下,精度提高 1%-2%,EfficientNet 推出了 small 版本,在 GPU 上速度提升 1.59 倍。


第二,PaddleCV 端到端能力大幅提升,打通了模型开发、训练、压缩、部署全流程,更好地服务于产业实践。


目标检测模型在实际部署时,由于耗时和内存占用,仍然存在很大挑战。基于此,PaddleSlim 提供了多种高效的模型压缩方法,助推 PaddleDetection 性能到达全新高度。使用蒸馏模型压缩方案可提升验证精度 2%;裁剪模型压缩方案大幅降低 FLOPs;蒸馏+裁剪模型压缩方案,基于 COCO 数据集进行测试,可以加速 2.3 倍。此外,PaddleDetection 还为开发者提供了从训练到部署的端到端流程,并提供一个跨平台的图像检测模型的 C++预测部署方案。


跟目标检测模型类似,语义分割模型在实际部署时也会面临耗时、内存占用的挑战。PaddleSlim 为 PaddleSeg 提供了多种分割模型的压缩方案,FLOPs 减少 51%,提升部署成功率。


针对超大规模人脸识别等应用挑战,正式发布 PLSC 超大规模分类工具。一方面,通过多机分布式训练可以将全连接层参数切分到更多的 GPU 卡,从而支持千万类别分类,并且飞桨大规模分类库在理论上可支持分类类别数随着使用 GPU 卡数的增加而增加。另一方面,PLSC 的训练精度和效率高,在多个数据集上得 SOTA 的训练精度,同时支持混合精度训练,单机 8 张 Nvidia Tesla v100 GPU 配置下混合精度训练速度提升 42%。PLSC 让开发者通过五行代码即可实现千万类别分类网络的构建和训练,提供大规模分类任务从训练到部署的全流程解决方案。同时,支持训练 GPU 卡数的动态调整、Base64 格式图像数据预处理。


PaddleCV 与飞桨分布式训练能力全面结合,对于人脸识别等广泛的场景应用提供了推动作用。3 月初,百度开源的“戴口罩人脸识别算法”中,即通过 PLSC 实现了快速对数百万 ID 的训练数据进行训练;同时采用飞桨模型压缩库 PaddleSlim 进行模型搜索与压缩,产出了高性能的人脸识别模型;最后基于 Paddle Lite,实现了云端和移动端的快速部署。


第三,PaddleCV 全面打通了模型算法、开发框架和 AI 芯片,实现软硬一体化。


首先,PaddleCV 基于 Paddle Lite 多硬件支持能力的优势,与昆仑芯片进行深度联合优化,实现端到端软硬一体能力的完全领先和自主可控。以制造业为例,百度与微亿智造联合打造了智能自动化监测设备“表面缺陷视觉检测设备”,区别于传统人工肉眼检查电子零件的方式,既保障质检环节的检查质量与效率,也进一步缓解了由于疫情原因造成的人力缺乏问题。


此次合作,借由百度昆仑芯片、百度智能云的加持,以及基于百度飞桨深度学习平台的目标检测模型,微亿构建完成了一个从智能硬件到算法软件再到算力供给的智能制造解决方案大闭环,具备了端到端软硬一体能力,实现了完全的自主可控。此外,在央视《新闻联播》2 月 10 日报道中还提到,江苏常州的精研科技借助“表面缺陷视觉检测设备”,解决了工人无法复工情况下的生产难题,在精研科技的精密零部件制造车间,十台无人值守的智能化检测设备 24 小时工作,比人工检测效率提升近 10 倍。



百度与微亿智造打造的工业智能质检设备


PaddleCV 的重磅升级,飞桨为视觉领域提供了更为强大且应用广泛的工具,加速不同产业的 AI 落地。除了在视觉领域,飞桨也形成了语音、视觉、NLP 等全方位的能力体系。飞桨还充分发挥全硬件平台能力的优势,与昆仑芯片深度融合优化,打造技术领先、自主可控的软硬一体技术平台。


目前,飞桨已累计服务 150 多万开发者,帮助 6.5 万企业用户,作为百度大脑的坚实底座,在很多领域发挥着实实在在的作用。


2020-03-25 08:001444

评论

发布
暂无评论
发现更多内容

【LeetCode】统计值等于子树平均值的节点数Java题解

Albert

LeetCode 7月月更

hive数据导入:从查询数据导入

怀瑾握瑜的嘉与嘉

大数据 hive 7月月更

rxjs Observable 自定义 Operator 的开发技巧

汪子熙

typescript 响应式编程 angular RXJS 7月月更

远程办公对我们的各方面影响心得 | 社区征文

恒山其若陋兮

远程办公 初夏征文

JDBC

武师叔

7月月更

毕业总结

Dean.Zhang

微信小程序利用百度api达成植物识别

是乃德也是Ned

小程序开发 7月月更

体验居家办公完成项目有感 | 社区征文

恒山其若陋兮

居家办公 初夏征文

好玩的免费GM游戏整理汇总

echeverra

游戏

Security RememberMe原理分析

急需上岸的小谢

7月月更

相信自己,这次一把搞定JVM面试

慕枫技术笔记

JVM 7月月更

深刻理解 Linux 进程间七大通信(IPC)

C++后台开发

网络编程 linux开发 Linux服务器开发 C++开发 进程通信

Mall电商实战项目全面升级!支持最新版SpringBoot,干掉循环依赖

程序知音

Java spring 编程 程序员 后端

旧的Spring Security OAuth已停止维护,全面拥抱最新解决方案

程序知音

Java spring 程序员 微服务 后端

使用BLoC 构建 Flutter的页面实例

岛上码农

flutter ios 安卓 移动端开发 7月月更

关于Flink框架窗口(window)函数最全解析

百思不得小赵

大数据 flink window 7月月更

记一次面试

SkyFire

面试 操作系统 底层 基础知识

OpenHarmony如何启动远程设备的FA

坚果

HarmonyOS OpenHarmony 7月月更 harmony

Django 表单

海拥(haiyong.site)

django 7月月更

关于我

程序员半支烟

Modbus协议通信异常

神农写代码

Python|语言元素、分支结构和循环结构

AXYZdong

7月月更

RPA进阶(二)Uipath应用实践

No Silver Bullet

RPA 7月月更 Uipath

亚马逊云科技 Community Builder 申请窗口开启

亚马逊云科技 (Amazon Web Services)

build 亚马逊云

瞧瞧人家用SpringBoot写的后端API接口,那叫一个优雅

程序知音

Java spring 编程 程序员 后端

性能测试如何创造业务价值

老张

性能测试 技术与业务

JavaScript 设计模式之策略模式

devpoint

JavaScript 设计模式 策略模式 7月月更

TCP拥塞控制详解 | 2. 背景

俞凡

算法 网络 TCP拥塞控制

王者荣耀商城异地多活架构设计

Fan

架构实战营

【愚公系列】2022年07月 Go教学课程 001-Go语言前提简介

愚公搬代码

7月月更

如何优雅的写 Controller 层代码?

程序知音

Java 编程 程序员 后端

百度飞桨PaddleCV全景图曝光 视觉技术能力三方面重磅更新_AI&大模型_百度_InfoQ精选文章