深度学习模型压缩技术的落地实践与创新

深度学习模型压缩技术的落地实践与创新

策划: 蔡芳芳

随着智能设备的普及,深度神经网络在智能手机、可穿戴设备等嵌入式设备上的应用越来越常见,这些嵌入式设备对模型体积、计算性能、功耗等方面都有比较严格的要求。但与此同时,深度学习网络规模却在不断增大,计算复杂度随之增高,严重限制了其在手机等智能设备上的应用。深度学习模型压缩与加速技术就是为了解决这一问题而生,其研究目的是:在保证现有模型的性能和精度基本不变的前提下,采用一些方法有效地大幅减少计算量、缩小模型的体积。除了可以在移动端AI应用场景派上用场,模型压缩技术也可以帮助一些实时应用减少神经网络的存储和计算成本,如在线学习、增量学习以及自动驾驶。

InfoQ希望通过策划这个选题对深度学习模型压缩技术的研究和应用现状、技术创新点、落地难点、局限性和未来发展方向等内容进行呈现,并推动该领域的发展。

谷歌提出任务无关的轻量级预训练模型MobileBERT:比BERT小4倍、速度快5倍
谷歌提出任务无关的轻量级预训练模型 MobileBERT:比 BERT 小 4 倍、速度快 5 倍

目前还没有任何工作能构建出一个与任务无关的轻量级预训练模型,谷歌大脑研发人员提出了 MobileBERT 来填补这一空白。

腾讯提出基于协同通道剪枝的深度神经网络压缩新方法,降低模型精度损失
腾讯提出基于协同通道剪枝的深度神经网络压缩新方法,降低模型精度损失

基于通道剪枝的模型压缩方法对模型部署时的计算方式没有额外要求,因此是目前比较常用的模型压缩方案。

兼顾实时性、准确度和隐私:腾讯联合港中文提出新型神经网络压缩方法
兼顾实时性、准确度和隐私:腾讯联合港中文提出新型神经网络压缩方法

在移动设备和许多在线应用中,实时性能好的轻量级模型是一大重要需求。

比BERT小8倍、推理快10倍,华为自研TinyBERT背后的模型压缩技术实践
比 BERT 小 8 倍、推理快 10 倍,华为自研 TinyBERT 背后的模型压缩技术实践

深度学习模型能够被压缩,本质上是因为参数的冗余,因此可以采用参数更少、结构更稀疏或者更低精度的运算来代替。

没有更多了
深度学习模型压缩技术的落地实践与创新-InfoQ