写点什么

R2 被曝 5 月发布!DeepSeek 刚刚开源专为 FP8 设计的 DeepGEMM,核心内核代码仅 300 行!

  • 2025-02-26
    北京
  • 本文字数:784 字

    阅读完需:约 3 分钟

大小:394.39K时长:02:14
R2被曝5月发布!DeepSeek刚刚开源专为FP8设计的DeepGEMM,核心内核代码仅300行!

报道称,DeepSeek 正在加速推出其 R2 人工智能模型,其最初计划在五月推出,但目前正在努力尽快推出。


而就在刚刚,DeepSeek 开源了 DeepGEMM,一个专为简洁高效的 FP8 通用矩阵乘法(GEMMs)设计的库,具有细粒度缩放功能(如 DeepSeek-V3 中提出的方案)。



该库采用 CUDA 编写,采用轻量级即时编译(JIT)模块,安装时无需编译(所有内核在运行时编译)。它支持普通 GEMMs 以及专家混合 (MoE) 分组 GEMMs。

 

目前,DeepGEMM 仅支持 NVIDIA Hopper 张量核心,该库使用 CUDA 核心两级累加(promotion)(晋升)策略来解决 FP8 张量核心累加不精确问题。尽管 DeepGEMM 借鉴了 CUTLASS 和 CuTe 的一些理念,但避免了过度依赖模板或复杂的代数结构。该库设计简洁,仅包含一个核心内核函数,代码大约只有 300 行左右。

 


按照 CUTLASS 设计,DeepGEMM 中的内核经过了 warp 专门化,可实现重叠数据移动、张量核心 MMA 指令和 CUDA 核心提升。DeepGEMM 使用 TMA 加载 LHS、RHS 和缩放因子,以及存储输出矩阵。

 

尽管设计轻量,DeepGEMM 的性能在各种矩阵形状下均能匹配或超越经过专家调优的库。

 

DeepSeek 在配备 NVCC 12.8 的 H800 计算卡上对 DeepSeek-V3/R1 推理流程(包含预填充和解码阶段,除了张量并行场景)可能涉及的所有矩阵形状进行全量测试,所有加速性能指标均基于 CUTLASS 3.6 深度优化的内部实现作为基准对比。DeepGEMM 在部分特定矩阵形状上的性能表现仍有提升空间。




“虽然 FP8 在生产中还处于相对早期阶段,但 DeepGEMM 代表着在使 FP8 成为大规模 MoE 模型的可行选择方面迈出了重要一步。朋友们,这真是太酷了。”有网友评价。

 

使用要求:

Hopper 架构 GPU,sm_90a 必须支持

Python 3.8 或更高版本

CUDA 12.3 或更高版本(官方强烈建议使用 12.8 或更高版本)

PyTorch 2.1 或更高版本

CUTLASS 3.6 或更高版本(可以通过 Git 子模块克隆)

 

开源地址(MIT 许可证):

https://github.com/deepseek-ai/DeepGEMM

2025-02-26 10:569971

评论

发布
暂无评论

项目流程管理处理推荐 OmniPlan Pro 4 最新激活中文

胖墩儿不胖y

Mac软件 项目流程管理

企业数据安全重要?私有化部署IM,保障信息安全无忧虑!

BeeWorks

豆瓣评分9.6!Mybatis技术原理实战

程序员万金游

mybatis #java #Spring #后端

好物周刊#2:AI 写作助手

村雨遥

软件 网站 项目 插件 资料

Puppeteer无头浏览器:开启自动化之门,掌握浏览器世界的无限可能

凌览

node.js puppeteer 截图

时序数据库 IoTDB 发布端边云原生解决方案,有效优化工业互联网数据上传时效与资源消耗

Apache IoTDB

infoQ 迁移开始

愤毛阿青

重装亮相!9 月 22 日平凯数据库 - TiDB 企业版全解读等你来!

PingCAP

数据库 TiDB 平凯星辰 平凯数据库

最佳实践:TiDB 业务写变慢分析处理

PingCAP

数据库 最佳实践 TiDB

静态分析在DevSecOps中的应用

Tom(⊙o⊙)

在信创化的浪潮下,银行应该如何选择

Onegun

信创 信创生态

软件需求文档、设计文档、开发文档、运维文档大全

金陵老街

项目管理 #运维

科兴未来 | 中国·仙居第六届全球医疗器械创业创新大赛

科兴未来News

WorkPlus局域网即时通信软件,打造高效协作的智能选择

BeeWorks

金融业需要的大模型,是一个系统化工程

脑极体

大模型

专访中欧财富伍春兰:财富管理行业数字化转型升级,数据库如何选型?

PingCAP

数据库 TiDB

任正非“苹果是华为的老师”;音频编解码标准 L2HC 发布;GNU 和自由软件运动四十周年丨RTE开发者日报 Vol.53

声网

C++中的四种类型转换运算符

芯动大师

C语言

强大硬件+优化软件,英特尔锐炫助力玩家沉浸畅享《猛兽派对》

E科讯

集成开发环境软件Eclipse与MyEclipse区别

小齐写代码

独享http代理与普通http代理相比,独享贵的因素有哪些?

巨量HTTP

代理IP http代理

用户案例|Shopee 在多媒体理解业务的向量检索系统实践

Zilliz

非结构化数据 Milvus Shopee Zilliz 向量数据库

WorkPlus打造智慧企业移动门户,开启高效办公新时代

BeeWorks

R2被曝5月发布!DeepSeek刚刚开源专为FP8设计的DeepGEMM,核心内核代码仅300行!_芯片&算力_褚杏娟_InfoQ精选文章