硬核干货——《中小企业 AI 实战指南》免费下载! 了解详情
写点什么

R2 被曝 5 月发布!DeepSeek 刚刚开源专为 FP8 设计的 DeepGEMM,核心内核代码仅 300 行!

  • 2025-02-26
    北京
  • 本文字数:784 字

    阅读完需:约 3 分钟

大小:394.39K时长:02:14
R2被曝5月发布!DeepSeek刚刚开源专为FP8设计的DeepGEMM,核心内核代码仅300行!

报道称,DeepSeek 正在加速推出其 R2 人工智能模型,其最初计划在五月推出,但目前正在努力尽快推出。


而就在刚刚,DeepSeek 开源了 DeepGEMM,一个专为简洁高效的 FP8 通用矩阵乘法(GEMMs)设计的库,具有细粒度缩放功能(如 DeepSeek-V3 中提出的方案)。



该库采用 CUDA 编写,采用轻量级即时编译(JIT)模块,安装时无需编译(所有内核在运行时编译)。它支持普通 GEMMs 以及专家混合 (MoE) 分组 GEMMs。

 

目前,DeepGEMM 仅支持 NVIDIA Hopper 张量核心,该库使用 CUDA 核心两级累加(promotion)(晋升)策略来解决 FP8 张量核心累加不精确问题。尽管 DeepGEMM 借鉴了 CUTLASS 和 CuTe 的一些理念,但避免了过度依赖模板或复杂的代数结构。该库设计简洁,仅包含一个核心内核函数,代码大约只有 300 行左右。

 


按照 CUTLASS 设计,DeepGEMM 中的内核经过了 warp 专门化,可实现重叠数据移动、张量核心 MMA 指令和 CUDA 核心提升。DeepGEMM 使用 TMA 加载 LHS、RHS 和缩放因子,以及存储输出矩阵。

 

尽管设计轻量,DeepGEMM 的性能在各种矩阵形状下均能匹配或超越经过专家调优的库。

 

DeepSeek 在配备 NVCC 12.8 的 H800 计算卡上对 DeepSeek-V3/R1 推理流程(包含预填充和解码阶段,除了张量并行场景)可能涉及的所有矩阵形状进行全量测试,所有加速性能指标均基于 CUTLASS 3.6 深度优化的内部实现作为基准对比。DeepGEMM 在部分特定矩阵形状上的性能表现仍有提升空间。




“虽然 FP8 在生产中还处于相对早期阶段,但 DeepGEMM 代表着在使 FP8 成为大规模 MoE 模型的可行选择方面迈出了重要一步。朋友们,这真是太酷了。”有网友评价。

 

使用要求:

Hopper 架构 GPU,sm_90a 必须支持

Python 3.8 或更高版本

CUDA 12.3 或更高版本(官方强烈建议使用 12.8 或更高版本)

PyTorch 2.1 或更高版本

CUTLASS 3.6 或更高版本(可以通过 Git 子模块克隆)

 

开源地址(MIT 许可证):

https://github.com/deepseek-ai/DeepGEMM

2025-02-26 10:5610034

评论

发布
暂无评论

Python Qt GUI设计:QTableView、QListView、QListWidet、QTableWidget、QTreeWidget和QTreeWidgetltem表格和树类(提升篇—1)

不脱发的程序猿

Python qt GUI设计 Qt Company 表格和树类

音视频实战(1)- 音频质量关键指标之QoE

liuzhen007

签约计划第二季

<<长津湖>> 有感

Tiger

28天写作

Vite2 + Vue3 + TypeScript + Pinia 搭建一套企业级的开发脚手架【值得收藏】

前端开发爱好者

typescript 大前端 Vue3 Vite2

搭建K8s容器化应用的开发调试环境

xiaoboey

Docker Kubernetes k3s Telepresence Skaffold

如何调用潜意识有效收集演讲素材-从右脑到左脑的切换

将军-技术演讲力教练

linux常用命令-历史命令和自动补全

Java个体户

Linux

su 和 sudo,你用对了吗?

xcbeyond

Linux 28天写作 12月日更 sudo

JavaScript中的作用域和预解析

你好bk

JavaScript 大前端 ES6 HTML5, CSS3 12月日更

元宇宙:虚实相生的网络世界

石云升

学习笔记 28天写作 元宇宙 12月日更

Mac 常用远程连接 ubuntu 工具对比

悟空聊架构

28天写作 Mac 软件 悟空聊架构 12月日更 远程连接

创业研发团队的组织建设-软件工作流程

wood

创业 敏捷开发 28天写作

Git进阶(七): 打标签

No Silver Bullet

git 学习 12月日更

支付宝商户号稳定性解决方案

hackstoic

支付宝 解决方案 To B业务

Golang Gin 框架之日志 DIY(七)

liuzhen007

28天写作 12月日更

为什么不要急着告诉孩子答案?

Justin

心理学 教育 28天写作

世界女性科技群落(二):种姓制度与数字微光下的生长录

脑极体

【Promise 源码学习】第十一篇 - Promise.all 的实现

Brave

源码 Promise 12月日更

渗透测试如何入门?

喀拉峻

网络安全 安全

34 K8S之ServiceAccount及X509数字证书

穿过生命散发芬芳

k8s 28天写作 12月日更

如何设计微服务架构

天天向上

架构实战营

一个简单的例子教会您使用 javap

汪子熙

Java 性能调试 28天写作 12月日更 javap

浅谈应用架构设计思路

陈俊

应用架构 设计指南

关于元宇宙的一些认识

李印

学习笔记 元宇宙

JavaScript数据结构之 Array

devpoint

JavaScript ES6 array 内容合集 签约计划第二季

Flink 实践教程-入门(9):Jar 作业开发

腾讯云大数据

flink 流计算 Oceanus

Flink 实践教程-进阶(1):维表关联

腾讯云大数据

flink 流计算 Oceanus

实用机器学习笔记三:网页数据抓取

打工人!

机器学习 学习笔记 12月日更 实用机器学习

Flink 实践教程-进阶(2):复杂格式数据抽取

腾讯云大数据

flink 流计算 Oceanus

SAP 产品的 Field Extensibility

汪子熙

28天写作 扩展 ERP 12月日更 企业管理软件

数据一致性

卢卡多多

数据一致性 28天写作 12月日更

R2被曝5月发布!DeepSeek刚刚开源专为FP8设计的DeepGEMM,核心内核代码仅300行!_芯片&算力_褚杏娟_InfoQ精选文章