【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

旷视天元 MegEngine 开源 CUDA INT4 量化源码实现

  • 2022-09-05
    北京
  • 本文字数:889 字

    阅读完需:约 3 分钟

旷视天元MegEngine开源 CUDA INT4 量化源码实现

当下人工智能技术正加速发展,渗透到云、边、端和应用的各个层面,与海量 IoT 设备进行深度融合,不断拓展应用场景。然而在 AIoT 场景中,嵌入式设备往往算力有限,难以承载庞大的 AI 模型。如何在资源有限的终端场景实现 AI 模型的有效部署,是加速 AI 落地的重要问题。


AI 工程师们研发了各种试图缩小模型大小并保持性能的办法,例如量化和蒸馏。其中,模型量化是将浮点计算转成低比特定点计算的一种模型压缩技术,可以有效减少模型算力消耗并提升计算速度,当前已经在工业界发展比较成熟。


目前相对成熟的模型量化方案是 INT8 量化。以 ResNet-50 模型为例,原本需要用 float 32 表示的权重,量化后只需要使用  INT8 表示,通过这样的处理,模型体积可以减少到原来的 1/2,再加上 TensorCore 的加持,还会有近 8 倍的网络加速。而如果更进一步,将模型用 INT4 表示,可以带来更多的速度提升。


为了推动低比特量化技术的发展,旷视天元MegEngine 团队开源了 INT4 的源码实现,这也让 MegEngine 成为首个开源 CUDA INT4 源码实现的深度学习框架


MegEngine采用均匀线性量化方案,实现了非对称量化和对称量化两种 INT4 的数据类型,同时通过算子融合优化、kernel 优化等方法,使得量化后的模型可以依然保持较高的精度以及良好的运行速度。同样以 ResNet-50 为例,INT4 相比 INT8 有 1.3 倍的加速。


具体代码实现可以访问 GitHub 链接(https://github.com/MegEngine/examples)了解详情。


随着 CUDA INT4 的开源,目前 MegEngine 框架不仅支持浮点数 FP32 和 FP16,而且支持 INT8 和 INT4 的对称和非对称量化推理。


此外,MegEngine 框架开发了诸多工具,帮助用户提升模型推理性能、简化部署流程,包括自动代码裁剪功能,支持用户全自动的针对算子进行代码裁剪;TracedModule 方案以及 MegEngine Lite,基于旷视业务打磨出的模型推理最佳实践,化解模型转换部署难题;流程管理工具 FastRun, 可以为每个计算自动选择最快的算法,从而保证整个网络的运行时间最短,让 MegEngine 用户运行不同的网络时都能收获最好性能。


据悉,自开源以来,MegEngine 不断优化,已先后发布 29 个版本,推出一系列实用功能,降低 AI 算法生产门槛,助力 AI 应用快速落地。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2022-09-05 19:594711
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 493.1 次阅读, 收获喜欢 1966 次。

关注

评论

发布
暂无评论
发现更多内容

星环科技Sophon 3.1发布,模型运管、隐私计算、边缘计算、知识全流程实现从数据到智能的全链路构建

星环科技

星环科技TDH社区版:让大数据分析触手可及

星环科技

【LeetCode】移除指定数字得到的最大结果Java题解

Albert

算法 LeetCode 5月月更

ansible 模块:yum

ghostwritten

ansible yum

数据增强(二)-SamplePairing

AIWeker

人工智能 深度学习 数据增强 5月月更

【ELT.ZIP】OpenHarmony啃论文俱乐部——即刻征服3D网格压缩编码

ELT.ZIP

3D OpenHarmony ELT.ZIP 图像视觉

将项目自动化发布到多台windows服务器上的工具有吗?哪个好?

行云管家

IT运维 自动化运维 服务器运维

“祖师级”技术人的哲理:认知、热爱、恒心

非凸科技

c++ C# MySQL 程序员 编程语言

如何使用 ansible 变量

ghostwritten

ansible

ansible 安装 httpd

ghostwritten

ansible httpd

开源项目丨 Taier 1.1 版本正式发布,新增功能一览为快

袋鼠云数栈

大数据

web前端培训vue3响应式reactive源码分析

@零度

前端开发 Vue 3

星环科技多模型大数据基础平台TDH9.0:十种数据模型组合拳 打通大数据业务全场景

星环科技

helm charts openshift Certified 实践

ghostwritten

Kubernetes Helm

ansible 远程容器机种方法

ghostwritten

Docker ansible

公有云厂商有哪些?排名是怎样?

行云管家

云计算 公有云 企业上云 云厂商

TDC 3.0 从数据分析到数据流通,数据云拓展新场景

星环科技

Zadig v1.11.0 发布:不止于环境,与开发者一起交付全球业务

Zadig

DevOps 云原生 CI/CD 软件交付

2022年5月中国数据库排行榜:墨天轮榜单榜首易位,前九三商三云三开源

墨天轮

数据库 opengauss TiDB 国产数据库 达梦

【刷题第四天】剑指 Offer II 076. 数组中的第 k 大的数字

白日梦

5月月更

星环科技打造自主可控的高性能数据库,开启国产化升级新篇章

星环科技

体验有礼 | 1 分钟 Serverless 极速部署个人网盘,真网盘真好用!

Serverless Devs

阿里云 互联网

【ELT.ZIP】OpenHarmony啃论文俱乐部——计算机视觉数据压缩应用

ELT.ZIP

计算机视觉 OpenHarmony 数据压缩 ELT.ZIP

星环科技数据安全与流通新产品+原创合规体系方法论,加速数据安全落地!

星环科技

星环科技StellarDB4.0正式发布:性能数倍提升,万亿级图数据库挖掘海量数据互联价值

星环科技

TDS:标签平台+API平台+数据共享平台,助力数据运营平台建设

星环科技

如何将你的 WordPress 网站置于维护模式

海拥(haiyong.site)

WordPress 5月月更

Wally-DR6000/IPQ6000/802.11ax/ 2x2 2.4GHz&5GHz /1.7Gbps

wallys-wifi6

Linux wifi6 openwrt

太极限了,JDK的这个BUG都能被我踩到

捉虫大师

jdk bug 5月月更

深入探索云原生流水线的架构设计

尔达Erda

DevOps 运维 云原生 架构设计 pipeline

郑州商品交易所:数智一体化助力交易所数字化转型

星环科技

旷视天元MegEngine开源 CUDA INT4 量化源码实现_AI&大模型_刘燕_InfoQ精选文章