发布在即!企业 AIGC 应用程度测评,3 步定制专属评估报告。抢首批测评权益>>> 了解详情
写点什么

旷视天元 MegEngine 开源 CUDA INT4 量化源码实现

  • 2022-09-05
    北京
  • 本文字数:889 字

    阅读完需:约 3 分钟

旷视天元MegEngine开源 CUDA INT4 量化源码实现

当下人工智能技术正加速发展,渗透到云、边、端和应用的各个层面,与海量 IoT 设备进行深度融合,不断拓展应用场景。然而在 AIoT 场景中,嵌入式设备往往算力有限,难以承载庞大的 AI 模型。如何在资源有限的终端场景实现 AI 模型的有效部署,是加速 AI 落地的重要问题。


AI 工程师们研发了各种试图缩小模型大小并保持性能的办法,例如量化和蒸馏。其中,模型量化是将浮点计算转成低比特定点计算的一种模型压缩技术,可以有效减少模型算力消耗并提升计算速度,当前已经在工业界发展比较成熟。


目前相对成熟的模型量化方案是 INT8 量化。以 ResNet-50 模型为例,原本需要用 float 32 表示的权重,量化后只需要使用  INT8 表示,通过这样的处理,模型体积可以减少到原来的 1/2,再加上 TensorCore 的加持,还会有近 8 倍的网络加速。而如果更进一步,将模型用 INT4 表示,可以带来更多的速度提升。


为了推动低比特量化技术的发展,旷视天元MegEngine 团队开源了 INT4 的源码实现,这也让 MegEngine 成为首个开源 CUDA INT4 源码实现的深度学习框架


MegEngine采用均匀线性量化方案,实现了非对称量化和对称量化两种 INT4 的数据类型,同时通过算子融合优化、kernel 优化等方法,使得量化后的模型可以依然保持较高的精度以及良好的运行速度。同样以 ResNet-50 为例,INT4 相比 INT8 有 1.3 倍的加速。


具体代码实现可以访问 GitHub 链接(https://github.com/MegEngine/examples)了解详情。


随着 CUDA INT4 的开源,目前 MegEngine 框架不仅支持浮点数 FP32 和 FP16,而且支持 INT8 和 INT4 的对称和非对称量化推理。


此外,MegEngine 框架开发了诸多工具,帮助用户提升模型推理性能、简化部署流程,包括自动代码裁剪功能,支持用户全自动的针对算子进行代码裁剪;TracedModule 方案以及 MegEngine Lite,基于旷视业务打磨出的模型推理最佳实践,化解模型转换部署难题;流程管理工具 FastRun, 可以为每个计算自动选择最快的算法,从而保证整个网络的运行时间最短,让 MegEngine 用户运行不同的网络时都能收获最好性能。


据悉,自开源以来,MegEngine 不断优化,已先后发布 29 个版本,推出一系列实用功能,降低 AI 算法生产门槛,助力 AI 应用快速落地。

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2022-09-05 19:594635
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 489.5 次阅读, 收获喜欢 1965 次。

关注

评论

发布
暂无评论
发现更多内容

基于Pair-wise和CrossEncoder训练单塔模型

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 8 月 PK 榜

数字时代的生产力工具:低代码开发平台

力软低代码开发平台

隆重介绍!为啥它让智能制造有了“芯”能力?

用友BIP

制造

veridex执行错误分析与方案

XCG00

Android;

洛基:北欧怪奇之旅 Röki for Mac(冒险解谜游戏)

mac

mac游戏 苹果mac游戏 洛基北欧怪奇之旅 冒险解谜游戏 Röki

时序数据库 TDengine SQL 查询语法规则汇总,官方教程奉上!

爱倒腾的程序员

数据库

基于Java开发的企业级数字化采购系统(SRM)

金陵老街

srm 采购系统 招投标系统

AI技术赋能,引领行业变革 | 百度营销创新打造“信息流AI投放”

科技热闻

何时使用MongoDB而不是MySql

越长大越悲伤

MySQL 数据库 mongodb

直播预告 | 博睿学院:浅析windows Hook原理和机制

博睿数据

可观测性 智能运维 博睿数据 直播预告 博睿学院

HarmonyOS NEXT新能力,一站式高效开发HarmonyOS应用

Geek_2d6073

面部表情识别技术的挑战与前景

来自四九城儿

Observable设计模式简介

树上有只程序猿

Java java-API Observable

全球优秀的架构师都在关注什么?

用友BIP

架构师 数智底座

“铁头乔”出品!CommunityOverCode Asia 专题介绍之物联网(IoT)/工业物联网(IIOT)

Apache IoTDB

软件测试/测试开发丨Python 内置库 多线程threading

测试人

Python 程序员 软件测试 自动化测试 测试开发

软件测试/测试开发丨Python 内置库 pythonlogging

测试人

Python 程序员 软件测试 自动化测试 测试开发

MRS大企业ERP流程实时数据湖加工最佳实践

华为云开发者联盟

大数据 后端 华为云 华为云开发者联盟 企业号 8 月 PK 榜

火爆全球的AI艺术二维码到底是怎么做的?

Ricky

二维码 个性化推荐 二维码生成

倒计时 1 天!1000+ 技术先锋,龙蜥社区受邀参加 OCP China Day 2023

OpenAnolis小助手

龙蜥活动 OCP China Day 2023

现代数据分析的革命,ABI报表工具引领企业进入数据驱动时代

流量猫猫头

HarmonyOS系统级推送服务,打造消息通知新体验

Geek_2d6073

一键登录和短信验证登录,到底有什么区别?

MobTech袤博科技

前端 App 前端开发 APP开发

SOFABoot 4.0 正式发布,多项新特性等你来体验!

SOFAStack

springboot Java 分布式 jdk17 #开源

深化产教融合,华为与高校共建鸿蒙人才培养

Geek_2d6073

基于 KubeSphere 快速部署 ByConity

朱亚光

云原生 数据舱

低代码如何实现高效率开发?

这我可不懂

低代码 数字化转型 可视化开发 JNPF

RR有幻读问题吗?MVCC能否解决幻读?

王磊

Java Java 面试题

IOS上架流程

低代码平台“高”效率开发的5个能力

高端章鱼哥

软件开发 低代码 提高效率 JNPF

贡献超 10 万代码的新晋 committer,持续参与 Apache IoTDB 社区的“秘籍”是?

Apache IoTDB

旷视天元MegEngine开源 CUDA INT4 量化源码实现_AI&大模型_刘燕_InfoQ精选文章