写点什么

R2 被曝 5 月发布!DeepSeek 刚刚开源专为 FP8 设计的 DeepGEMM,核心内核代码仅 300 行!

  • 2025-02-26
    北京
  • 本文字数:784 字

    阅读完需:约 3 分钟

大小:394.39K时长:02:14
R2被曝5月发布!DeepSeek刚刚开源专为FP8设计的DeepGEMM,核心内核代码仅300行!

报道称,DeepSeek 正在加速推出其 R2 人工智能模型,其最初计划在五月推出,但目前正在努力尽快推出。


而就在刚刚,DeepSeek 开源了 DeepGEMM,一个专为简洁高效的 FP8 通用矩阵乘法(GEMMs)设计的库,具有细粒度缩放功能(如 DeepSeek-V3 中提出的方案)。



该库采用 CUDA 编写,采用轻量级即时编译(JIT)模块,安装时无需编译(所有内核在运行时编译)。它支持普通 GEMMs 以及专家混合 (MoE) 分组 GEMMs。

 

目前,DeepGEMM 仅支持 NVIDIA Hopper 张量核心,该库使用 CUDA 核心两级累加(promotion)(晋升)策略来解决 FP8 张量核心累加不精确问题。尽管 DeepGEMM 借鉴了 CUTLASS 和 CuTe 的一些理念,但避免了过度依赖模板或复杂的代数结构。该库设计简洁,仅包含一个核心内核函数,代码大约只有 300 行左右。

 


按照 CUTLASS 设计,DeepGEMM 中的内核经过了 warp 专门化,可实现重叠数据移动、张量核心 MMA 指令和 CUDA 核心提升。DeepGEMM 使用 TMA 加载 LHS、RHS 和缩放因子,以及存储输出矩阵。

 

尽管设计轻量,DeepGEMM 的性能在各种矩阵形状下均能匹配或超越经过专家调优的库。

 

DeepSeek 在配备 NVCC 12.8 的 H800 计算卡上对 DeepSeek-V3/R1 推理流程(包含预填充和解码阶段,除了张量并行场景)可能涉及的所有矩阵形状进行全量测试,所有加速性能指标均基于 CUTLASS 3.6 深度优化的内部实现作为基准对比。DeepGEMM 在部分特定矩阵形状上的性能表现仍有提升空间。




“虽然 FP8 在生产中还处于相对早期阶段,但 DeepGEMM 代表着在使 FP8 成为大规模 MoE 模型的可行选择方面迈出了重要一步。朋友们,这真是太酷了。”有网友评价。

 

使用要求:

Hopper 架构 GPU,sm_90a 必须支持

Python 3.8 或更高版本

CUDA 12.3 或更高版本(官方强烈建议使用 12.8 或更高版本)

PyTorch 2.1 或更高版本

CUTLASS 3.6 或更高版本(可以通过 Git 子模块克隆)

 

开源地址(MIT 许可证):

https://github.com/deepseek-ai/DeepGEMM

2025-02-26 10:5610159

评论

发布
暂无评论

【web 开发基础】PHP 中的特殊流程控制(exit) -PHP 快速入门 (22)

迷彩

调试工具 10月月更 web开发基础 PHP基础 exit

分布式系统快速接入pinpoint1.8.3指南

程序员欣宸

Java Pinpoint 10月月更

Redis浅析(二)

Andy

react源码分析:实现react时间分片

flyzz177

React

Dubbo浅析(二)

Andy

Dubbo浅析(一)

Andy

前端react面试题总结

beifeng1996

React

能不能手写Vue响应式?前端面试进阶

bb_xiaxia1998

Vue

什么是ForkJoin?看这一篇就能掌握

华为云开发者联盟

多线程 开发 华为云 企业号十月 PK 榜

Redis浅析(一)

Andy

ZooKeeper浅析(二)

Andy

Dubbo浅析(三)

Andy

react源码分析:babel如何解析jsx

flyzz177

React

ElasticSearch浅析

Andy

带你实现react源码的核心功能

goClient1992

React

说说Vue响应式系统中的Watcher和Dep的关系-面试进阶

bb_xiaxia1998

Vue

峰会回顾 | 阿里云与StarRocks合作、开放、共赢

StarRocks

数据库

ZooKeeper浅析(一)

Andy

react状态管理?

beifeng1996

React

云小课|MRS基础原理之CarbonData入门

华为云开发者联盟

大数据 华为云 企业号十月 PK 榜

OSPF基础(二):OSPF区域、router-ID、度量值、修改度量值的方法、OSPF协议报文类型、OSPF邻接关系建立过程

Python-派大星

10月月更

阿里前端面试问到的vue问题

bb_xiaxia1998

Vue

数据湖(十四):Spark与Iceberg整合查询操作

Lansonli

数据湖 10月月更

13个QA带你了解线上压测的知识点

华为云开发者联盟

后端 开发 华为云 测试环境 企业号十月 PK 榜

WLAN无线局域网技术 基础(一)WLAN与WIFI的关系,基本的WLAN组网方式,胖AP和瘦AP各自的特点和适用场景

Python-派大星

10月月更

能否手写vue3响应式原理-面试进阶

helloworld1024fd

JavaScript

美团前端一面必会手写面试题汇总

helloworld1024fd

JavaScript

手撕常见JS面试题

helloworld1024fd

JavaScript

面试官:React怎么做性能优化

beifeng1996

React

手写一个react,看透react运行机制

goClient1992

React

为什么Redis的数据被删除,内存占用还这么大?

小小怪下士

Java redis 程序员

R2被曝5月发布!DeepSeek刚刚开源专为FP8设计的DeepGEMM,核心内核代码仅300行!_芯片&算力_褚杏娟_InfoQ精选文章