优Tech分享 | 多场景适配,TNN如何优化模型部署的存储与计算?

徐瑛

2020 年 6 月 17 日

优Tech分享 | 多场景适配,TNN如何优化模型部署的存储与计算?

在新基建大潮下,人工智能在社会发展中的角色越来越重要。技术开源构建了开放共进的生态环境,帮助行业应用加速落地,同时在解决行业实际问题时不断迭代,推动了人工智能技术普及。


6 月 10 日,腾讯优图实验室宣布正式开源新一代移动端深度学习推理框架 TNN,通过模型部署在存储上的优化以及在计算上的优化,实现在多个不同平台的轻量部署落地,性能优异、简单易用。基于 TNN,开发者能够轻松将深度学习算法移植到手机端高效的执行,开发出各式各样充满个性和特色的 App。本文整理自腾讯优图实验室、极客邦科技和 InfoQ 联合主办的「优 Tech 沙龙」,分享嘉宾是来自腾讯优图实验室的高级研究员 Darren。


深度学习框架的行业发展


深度学习有三个要素:数据、算法、算力。按照软件和硬件划分,算力代表硬件,数据和算法代表软件。


在硬件层面又分云和端侧,云端硬件代表性的像英特尔和英伟达的服务器,端侧有手机和摄像头。在软件层面,数据和算法通过训练框架练出算法模型,然后与推理框架结合,形成各种各样的解决方案在业务中落地。业务落地之后又会反哺实际业务场景的一些数据给到训练框架,这样一个循环过程使算法模型在业务场景下的精度越来越高。



冯.诺依曼体系结构是现代计算机的基础,它把计算机划分为输入、输出、存储、计算和控制五大部分,CPU(运算+控制)和内存(存储)是其中两大组成部分,硬件架构发展以及软件框架的优化都与这两个模块息息相关。



在硬件架构的演进中,CPU 为保证通用处理性能,大量面积用于控制单元,相应用于计算的 ALU 单元就比较小,导致算力比较弱。


与 CPU 架构设计相反, GPU 中运算器的规模远远超过控制器,极大的增强了数据并行处理的计算能力,使得 GPU 在图形/图像处理领域中快速崛起,但是,GPU 功耗太高。英伟达最新的 A100 型号 625T 算力下功耗 400W。


针对功耗高,业界又产生了 AI 芯片,它根据深度学习算法中卷积运算占绝对大头的特点,专用卷积加速模块,同时保障了算力强和功耗低优点。



2017 年称为 AI 芯片元年,Google TPU 率先发布,号称领先 GPU 10 倍。随后,从 APU 到 ZPU 各种 AI 芯片陆续推出,NVIDIA 也在其的 volta 和 turing GPU 中加入了专为 AI 设计的 tensorcore 矩阵计算单元,AI 芯片战争全面打响。



不断变得强大的算力为 AI 计算提供了高性能的硬件基础设施。好马配好鞍,AI 计算还需要强大的配套软件框架,帮助算法工程师们实现更便捷的算法模型设计、优化和部署,下图是软件框架的演进。


腾讯优图推理框架 TNN 发展的由来


优图实验室作为腾讯顶级的 AI 实验室,很早就在业务落地中遇到了推断性能的瓶颈,布局推断框架。



  • 早在2015年,在Tensorflow等训练框架出现之前,腾讯优图就开始了推断框架的布局。

  • 2017年,优图实验室开源了ncnn推断框架,这是首个专注于移动端的开源推断框架。

  • 2018年,伴随着部门业务场景由2C转向2B,云、IOT端业务需求变得旺盛起来,英伟达GPU和AI专有芯片拥有巨大的性能和成本优势,为此优图内部整合了之前移动端的经验并适配英伟达GPU和AI专有芯片推出新的框架RapidNet。

  • 2019年后公司大力推行开源协同战略,优图实验室协同公司其它做框架的部门如天天P图团队、TEG的AI平台部一起推出的TNN框架,并于6月10日全球开源。


相比于其它开源框架,TNN 有哪些特性和优势?


TNN 在移动端上对 CPU、GPU 做了极致优化,性能达到行业前列。TNN 也支持多种精度的计算以及多种内存复用以适配低端设备。


在模型支持上,ONNX 作为中间格式以支持 Pytorch、Tensorflow 等主流训练框架,当前算子数目超过 80+。



硬件架构适配方面,TNN 适配了 ARM 的 v7\v8,移动端 GPU 的 mali、高通和苹果,NPU 上也适配了华为的达芬奇和 intel 的 Movidius,这部分目前还没有开放出来。在腾讯内部,TNN 已经在手机 QQ、微视、天天 P 图等产品中落地,包括前段时间风靡朋友圈的儿童节变小孩、魔法天空、光感染发等个性玩法。


模型部署在存储上的优化技术


为什么要在内存上做优化?


一是内存成本高内存容量不足。以英伟达 GPU 为例,同级 GPU 3 年来算力 30x,内存仅 4x。第二,内存性能问题,以 CPU 为例,内存速度、内存通信带宽的增长速度远慢于 CPU 频率的增长,让内存逐渐成为处理器周围的一道墙,堵住了输入输出,使其无法充分施展性能。这就是所谓的“内存墙”。


为此,在内存上的优化,也主要从两个点着手,尽量减少内存使用,尽量让内存的读写更快。



关于内存使用量,腾讯优图引入引用计数管理内存,无依赖节点内存循环复用,极大的减少了内存使用量。如下所示,左图是一般训练框架的内存使用示例,从图中可以看到需要 16 块内存,而使用引用计数后,通过循环复用,仅需要 3 块。


在单模型内存复用的基础上,TNN 引入共享内存管理器,让多个模型间进行复用,这样模型间只要使用最大的内存就可以。实际对比发现,在 DenseNet 网络上,上述优化方案可以带来 90%的优化空间。



关于内存读写,TNN 尽量让要读取的数据是 128bit 对齐,以提高数据的效率。如图,在读取 1 位置起始的 4byte 数据时,计算机先读取上面红色的 4byte 然后上移一个 byte,再读取绿色的 4 个 byte 下移 3byte,最后组合在一起,这样就花费了两次读的时间。解决办法是,在深度学习计算中对数据格式进行排布,比如采用 nchw4 格式的数据排布,将 C 方向上的 4 个值合并在一起,提高了每行的读取效率。


模型部署在计算上的优化技术



为什么要在计算上做优化?


移动端、嵌入式端设备型号各异,平台性能参差不齐,而深度学习算往往需要巨大的运算量。虽然各大厂商旗舰机型不断在刷新性能记录,但中低端机型一直是安卓阵营的主力。安卓官方数据,超 50%安卓设备还未用上 2016 年的安卓 7.0;而腾讯 wetest 数据:超 60%手机依然是中低端 CPU 配置。因此,如何在低端设备上运行深度学习,挑战巨大又至关重要。


如何进行计算优化?从粗粒度到细粒度有几个优化策略:图优化、算子公式优化、算子手动调优、异构调度调优。


先讲图优化,Tensorflow、PyTorch 等框架生成的网络算子粒度小,存在很多粘合剂算子,导致深度学习网络包含成千上万的运算节点,这会带来线性增长的内存读写次数。TNN 采用图优化对网络进行等效融合,将复杂子图融合成单运算节点来精简整个网络,既减少计算量又减少内存读写。以右边为优化前整个计算流程需要 10 次内存读,9 次内存写,而优化后只需要 2 次读和 1 次写。



算子公式优化包括公式近似和公式等效。


公式近似,以 Sigmoid 为例,根据指数函数的定义,取 n=16,从图形上看,两者曲线非常近似,而通过这种利用乘法代替指数运算的方式,sigmoid 的性能提升了 2 倍。


公式等效,以 InstanceNorm 为例,上面是 InstanceNorm 算子的定义,从中可以看到,它会先遍历一次内存计算均值 mean,再遍历一次内存计算数据的方差,也就是说按照定义来实现的话,需要遍历两次内存。而下面 TNN 利用方差公式的性质对 InstanceNorm 计算公式展开,在读取内存的时候同时计算均值和平方和,这样就只需要遍历 1 次内存,根据实测,优化后性能可提升 15%以上。



在往底层走,对算子实现进行手动调优。由于卷积运算在深度学习中占比在 70%以上,这里以英伟达平台为例,讲解如何针对 GPU 硬件缓存特性设计精细的卷积实现。


方案 1 将输入在主存中重排输入,并与权值矩阵进行矩阵 GEMM 乘法运算。它有明显的缺点:Im2col 导致大量显存 DRAM 读写。对于 3x3 的卷积来说 Im2col 显存占用变为原来的 9 倍,导致大量显存 DRAM 读写。


方案 2 隐式 GEMM 将数据就行分块这样它可以在 GPU share memory(高速缓存)进行迭代展开,且只占用固定大小。im2col 相关指令与矩阵乘法指令交替发射,相互掩盖延迟。


方案 3 更进一步,根据偏移量递增值固定的特性,预先计算好递增值,消除数据展开时偏移量的计算,降低计算单元压力,提高计算速度。整个设计的性能加速在 20%-50%左右。



异构调度优化。CPU 在提交计算任务后,GPU 并不一定马上进行计算,这加大了整体任务的时延。TNN 在提交任务时可以手动触发以提高计算的优先级,这样 GPU 实际执行的时间得到提前。以图中 task3 为例,几个色块直接存在 gap,而优化后消除了 gap。



通过前面各种优化手段,TNN 框架性能在主流高端、中端、低端 CPU, GPU 性能在开源框架排名前列。



在业务场景下优化,TNN 采用三步走技术方案


图像超分辨,是指利用机器学习将低分辨率图像转化为高分辨率图像,并保持图像的细节信息不丢失。


这一技术面临的挑战有两个方面:一方面是需要基于原图尺寸计算,数据运算量大;另一方面是移动端尤其是 Android 端机型范围广,中低端机占比 50%以上,如何充分利用计算资源挑战极大。


基于这些挑战,优图实验室采用了三步走的技术方案:


  • 第一,采用模型动态部署的方案,将机型划分为高中低三档,不同等级的机型跑不同复杂度的模型,减轻机器的计算压力。

  • 第二,异构处理,根据CPU、GPU计算性能对图片区域进行任务划分,最后再拼接成超分辨图像。

  • 第三,图片分小块处理。异构处理是按CPU、GPU进行的大块划分,除此之外,还要把大块区域继续划分成很多小块如16x16,8x8,使用算法对图片的纹理复杂度进行识别,复杂度小的小块直接使用插值进行放大,复杂度大的小块利用模型进行放大,这样大大提高了图片的处理速率。


图像超分辨到时是业界超分辨深度神经网络在移动端首次落地,节省了 75%的流量,图片下载响应时间从 600ms 降低到 180ms。同时依靠前面所说的优化策略,实现在安卓侧机型覆盖率达到 74.3%,iOS 侧机型覆盖率达到 95%。


Q&A


Q: TNN 支持多种计算单元中的不同类别、不同架构、不同序列的计算单元,最优性能的优化策略普遍存在差异,请问是 deviceQuery 查询动态实现底层接口还是开发者自行判断和选择最优的方式?


A: 目前来说 TNN 在计算设备会根据不同架构自适应做一些策略优化,比如说 Mali GPU、高通 GPU 采用不同的 localsize。但在上层应用上还没有自动选择使用哪种计算设备的功能。自动选择是个很好的建议,但是这需要根据模型和设备能力做出选择,框架内部比较难或者说难以用优雅的方式实现,当前还是交给 APP 层做选择。


Q:通过近似计算会不会造成误差累计?特别是网络层数很多时,腾讯优图是如何评估这些误差的?


A:首先近似计算目前默认是不打开的。是否打开需要开对应的算子在整个网络中的耗时占比,比如整体占比就 15%,近似计算性能翻倍的情况下整体也就提升 7%,收益不大。而在确实需要的情况下,也可以通过部分打开的方式来解决累积误差的问题。可以在测试集上评估,看每个位置上的算子打开近似计算后对精度的影响,最后综合考虑。更进一步的方式是训练的时候把近似计算的误差也带进去,通过反复训练来减小误差。


2020 年 6 月 17 日 18:311284

评论

发布
暂无评论
发现更多内容

1分钟带你入门 React 生命周期

Leo

react.js 前端 React 生命周期 前端进阶训练营

区块链数字货币钱包开发,多币种钱包APP

135深圳3055源中瑞8032

区块链合约跟单系统开发价格,合约API跟单

135深圳3055源中瑞8032

openEuler进化记:一颗探索宇宙的生态之星

脑极体

ARTS打卡 第21周

引花眠

微服务 ARTS 打卡计划 springboot

标准的开发框架,对企业开发有多重要?

Philips

敏捷开发

现场突击京东程序员的购物车!看看"11.11"都买啥?

京东智联云开发者

程序人生

架构师训练营第一期 - 第五周课后作业

卖猪肉的大叔

穆长春:数字人民币“双离线”支付开发完毕后续将试点

CECBC区块链专委会

数字钱包

这里有一份Java程序员的珍藏书单,请您注意查收

捡田螺的小男孩

Java 后端 PDF

iOS性能优化 — 三、安装包瘦身

iOSer

ios 性能优化 编程语言 ios开发 安装包瘦身

LeetCode题解:46. 全排列,回溯,JavaScript,详细注释

Lee Chen

算法 LeetCode 前端进阶训练营

马云:数字货币可能会重新定义货币

CECBC区块链专委会

金融

第五周课后总结

饭桶

Javaer 进阶必看的 RocketMQ ,就这篇了

yes的练级攻略

RocketMQ 消息队列

架构师训练营第 1 期 - 第 5 周 - 作业

wgl

极客大学架构师训练营

架构师训练营第一期 - 第五周学习总结

卖猪肉的大叔

既不能神化,也不要泛化区块链

CECBC区块链专委会

金融 数字技术

保证缓存与数据库的数据一致性不是很容易

架构师修行之路

缓存 一致性

交易所开发需要多少钱?区块链交易所开发

135深圳3055源中瑞8032

广东USDT支付系统开发服务商,区块链跨境支付

135深圳3055源中瑞8032

第五周课后练习

饭桶

蚂蚁金服Java三面面经:二叉树+HTTPS加密+自旋锁+缓存穿透(附答案)

Java架构之路

Java 程序员 架构 面试 编程语言

中台架构下的DDD和落地实践

高鹏

业务中台 DDD 领域驱动模型DDD 中台架构 中台架构 DDDplus

文石BOOX Note Air与掌阅iReader Smart2 该怎么选?

Geek_459987

云原生2.0时代:开启应用定义基础设施新时代

华为云开发者社区

容器 云原生

架構師訓練營第 1 期 - 第 05 周作業

Panda

架構師訓練營第 1 期

黑幕!爆京东18A技术专家纯手打:小团队构建大网站架构实战

996小迁

Java 学习 架构 面试 笔记

程序员跳槽,只要用好(2+2)方法论,绝对可以找到一家好公司

Java架构师迁哥

暂存图片

而立

一文带你掌握Redis操作指南

华为云开发者社区

数据库 存储

优Tech分享 | 多场景适配,TNN如何优化模型部署的存储与计算?-InfoQ