写点什么

R2 被曝 5 月发布!DeepSeek 刚刚开源专为 FP8 设计的 DeepGEMM,核心内核代码仅 300 行!

  • 2025-02-26
    北京
  • 本文字数:784 字

    阅读完需:约 3 分钟

大小:394.39K时长:02:14
R2被曝5月发布!DeepSeek刚刚开源专为FP8设计的DeepGEMM,核心内核代码仅300行!

报道称,DeepSeek 正在加速推出其 R2 人工智能模型,其最初计划在五月推出,但目前正在努力尽快推出。


而就在刚刚,DeepSeek 开源了 DeepGEMM,一个专为简洁高效的 FP8 通用矩阵乘法(GEMMs)设计的库,具有细粒度缩放功能(如 DeepSeek-V3 中提出的方案)。



该库采用 CUDA 编写,采用轻量级即时编译(JIT)模块,安装时无需编译(所有内核在运行时编译)。它支持普通 GEMMs 以及专家混合 (MoE) 分组 GEMMs。

 

目前,DeepGEMM 仅支持 NVIDIA Hopper 张量核心,该库使用 CUDA 核心两级累加(promotion)(晋升)策略来解决 FP8 张量核心累加不精确问题。尽管 DeepGEMM 借鉴了 CUTLASS 和 CuTe 的一些理念,但避免了过度依赖模板或复杂的代数结构。该库设计简洁,仅包含一个核心内核函数,代码大约只有 300 行左右。

 


按照 CUTLASS 设计,DeepGEMM 中的内核经过了 warp 专门化,可实现重叠数据移动、张量核心 MMA 指令和 CUDA 核心提升。DeepGEMM 使用 TMA 加载 LHS、RHS 和缩放因子,以及存储输出矩阵。

 

尽管设计轻量,DeepGEMM 的性能在各种矩阵形状下均能匹配或超越经过专家调优的库。

 

DeepSeek 在配备 NVCC 12.8 的 H800 计算卡上对 DeepSeek-V3/R1 推理流程(包含预填充和解码阶段,除了张量并行场景)可能涉及的所有矩阵形状进行全量测试,所有加速性能指标均基于 CUTLASS 3.6 深度优化的内部实现作为基准对比。DeepGEMM 在部分特定矩阵形状上的性能表现仍有提升空间。




“虽然 FP8 在生产中还处于相对早期阶段,但 DeepGEMM 代表着在使 FP8 成为大规模 MoE 模型的可行选择方面迈出了重要一步。朋友们,这真是太酷了。”有网友评价。

 

使用要求:

Hopper 架构 GPU,sm_90a 必须支持

Python 3.8 或更高版本

CUDA 12.3 或更高版本(官方强烈建议使用 12.8 或更高版本)

PyTorch 2.1 或更高版本

CUTLASS 3.6 或更高版本(可以通过 Git 子模块克隆)

 

开源地址(MIT 许可证):

https://github.com/deepseek-ai/DeepGEMM

2025-02-26 10:569618

评论

发布
暂无评论

没有发生GC也进入了安全点?这段关于安全点的JVM源码有点意思!

CoderW

Java 源码分析 JVM GC

想要做网页游戏怎么办 ?PixiJs 篇(四)

空城机

JavaScript 大前端 游戏 pixi 5月日更

学会这12个Java开发框架轻松拿到30K+

北游学Java

Java spring Netty mybatis 框架

《Redis入门指南(第 2 版)》读后感

codists

redis

项目管理学习到的教训

胡迪伦

项目管理

DDD这样落地

码农戏码

DDD

架构实战营 - 模块 4- 作业

请弄脏我的身体

架构实战营

面试被问 Spring cloud 上下文,可以这样回答

Damon

spring SpringCloud 5月日更

大数据中的工作流调度

五分钟学大数据

大数据 5月日更

学习笔记之:孩子学习老是跑?日更好“难”

Nydia

学习

什么是线程安全?一文带你深入理解

程序猿阿星

线程安全 信号量 线程同步 互斥锁

架构师实战营 模块四作业(设计千万级学生管理系统的考试试卷存储方案)

代廉洁

架构实战营

【LeetCode】数组中两个数的最大异或值Java题解

Albert

算法 LeetCode 5月日更

领域驱动设计101 - 实体

luojiahu

领域驱动设计 DDD

线性表,栈,队列,数组草图

鲁米

这5个浏览器工具,让你的上网舒适度提升150%

彭宏豪95

效率 工具 浏览器 脚本 5月日更

架构师实战营 模块四总结

代廉洁

架构实战营

从 Netflix 到 Alibaba,Spring Cloud 更好了吗?

博文视点Broadview

Android 音视频采集那些事

LoveYFan

音视频

利用Nginx流量镜像,优雅的接入waf

运维研习社

nginx WEB安全 waf 5月日更

架构实战营 - 模块 4- 作业

泄矢的呼啦圈

架构实战营

Impala架构剖析

大数据技术指南

大数据 5月日更

Redis - 列表

旺仔大菜包

redis

架构实战训练营 - 模块四课后作业

Johnny

架构实战营

实时语音如何过质量关?

cv君

深度学习 算法 音视频 引航计划

带你认识时域、频域与Android系统Visualizer

Changing Lin

音视频 5月日更

后悔:要是当初那样就好了

石云升

思维方式 5月日更 后悔 人生选择

架構實戰營 - 模塊 4 作業

Frank Yang

架构实战营

高耦合:为何代码一直被绑架?

Jxin

测试开发需要掌握哪些技术?

夏兮。

方法论 测试 CI/CD automation 语言 & 开发

架构训练营模块4作业

Geek_649372

架构训练营

R2被曝5月发布!DeepSeek刚刚开源专为FP8设计的DeepGEMM,核心内核代码仅300行!_芯片&算力_褚杏娟_InfoQ精选文章