写点什么

R2 被曝 5 月发布!DeepSeek 刚刚开源专为 FP8 设计的 DeepGEMM,核心内核代码仅 300 行!

  • 2025-02-26
    北京
  • 本文字数:784 字

    阅读完需:约 3 分钟

大小:394.39K时长:02:14
R2被曝5月发布!DeepSeek刚刚开源专为FP8设计的DeepGEMM,核心内核代码仅300行!

报道称,DeepSeek 正在加速推出其 R2 人工智能模型,其最初计划在五月推出,但目前正在努力尽快推出。


而就在刚刚,DeepSeek 开源了 DeepGEMM,一个专为简洁高效的 FP8 通用矩阵乘法(GEMMs)设计的库,具有细粒度缩放功能(如 DeepSeek-V3 中提出的方案)。



该库采用 CUDA 编写,采用轻量级即时编译(JIT)模块,安装时无需编译(所有内核在运行时编译)。它支持普通 GEMMs 以及专家混合 (MoE) 分组 GEMMs。

 

目前,DeepGEMM 仅支持 NVIDIA Hopper 张量核心,该库使用 CUDA 核心两级累加(promotion)(晋升)策略来解决 FP8 张量核心累加不精确问题。尽管 DeepGEMM 借鉴了 CUTLASS 和 CuTe 的一些理念,但避免了过度依赖模板或复杂的代数结构。该库设计简洁,仅包含一个核心内核函数,代码大约只有 300 行左右。

 


按照 CUTLASS 设计,DeepGEMM 中的内核经过了 warp 专门化,可实现重叠数据移动、张量核心 MMA 指令和 CUDA 核心提升。DeepGEMM 使用 TMA 加载 LHS、RHS 和缩放因子,以及存储输出矩阵。

 

尽管设计轻量,DeepGEMM 的性能在各种矩阵形状下均能匹配或超越经过专家调优的库。

 

DeepSeek 在配备 NVCC 12.8 的 H800 计算卡上对 DeepSeek-V3/R1 推理流程(包含预填充和解码阶段,除了张量并行场景)可能涉及的所有矩阵形状进行全量测试,所有加速性能指标均基于 CUTLASS 3.6 深度优化的内部实现作为基准对比。DeepGEMM 在部分特定矩阵形状上的性能表现仍有提升空间。




“虽然 FP8 在生产中还处于相对早期阶段,但 DeepGEMM 代表着在使 FP8 成为大规模 MoE 模型的可行选择方面迈出了重要一步。朋友们,这真是太酷了。”有网友评价。

 

使用要求:

Hopper 架构 GPU,sm_90a 必须支持

Python 3.8 或更高版本

CUDA 12.3 或更高版本(官方强烈建议使用 12.8 或更高版本)

PyTorch 2.1 或更高版本

CUTLASS 3.6 或更高版本(可以通过 Git 子模块克隆)

 

开源地址(MIT 许可证):

https://github.com/deepseek-ai/DeepGEMM

2025-02-26 10:569582

评论

发布
暂无评论

LeetCode题解:2618. 检查是否是类的对象实例,迭代和递归

Lee Chen

JavaScript LeetCode

应对突发流量,如何快速为自建 K8s 添加云上弹性能力

阿里巴巴云原生

阿里云 Kubernetes 云原生

@Import :Spring Bean模块装配的艺术

华为云开发者联盟

spring 开发 华为云 华为云开发者联盟 企业号 7 月 PK 榜

Spring 能解决所有循环依赖吗?

江南一点雨

Java spring

2023中国老博会/2023西部养老辅具展会

秋硕展览

深开鸿与华秋达成生态共创合作,共同打造硬件生态

华秋电子

开鸿智谷与华秋达成生态共创合作,共同打造硬件生态

华秋电子

Github实时数据分析与可视化训练营火热开启!免费领取5000元云上资源

阿里云大数据AI技术

MySQL 开发者 分布式计算 数据可视化 大数据、

Java基础入门——Java语言介绍

java易二三

Java

润和软件与华秋达成生态共创合作,共同推动物联网硬件创新

华秋电子

直播预告 | 博睿学院:让Arthas带你玩转jvm

博睿数据

JVM 可观测性 智能运维 博睿数据 博睿学院

MES1.0.0正式发布|万界星空推出免费的MES系统

万界星空科技

开源 MES系统 制造业生产管理系统

点云标注在自动驾驶中的实践应用与挑战

数据堂

实现大文件远程传输、备份和共享的小秘诀

镭速

大文件远程传输

2023年中国(深圳)国际耐火材料产业展会

秋硕展览

“芯”有灵“蜥” 融合·创新!龙蜥社区走进 Intel MeetUp 议程硬核剧透来了

OpenAnolis小助手

开源 操作系统 intel Meetup 龙蜥社区

华秋慕尼黑上海电子展圆满收官,数字化赋能智能制造!

华秋电子

先楫半导体与华秋达成生态共创合作,共建技术生态社区

华秋电子

向量检索在大模型应用场景的技术和实践

Baidu AICLOUD

向量检索 大模型

软件测试/测试开发丨Linux常用命令之性能统计

测试人

Python Linux 程序员 性能 软件测试

软通动力与华秋达成生态共创合作,共同推动物联网硬件创新

华秋电子

点云标注的未来发展与技术革新

数据堂

尝试7分钟内上线一个网站,这个工具太赞了!

互联网工科生

低代码 搭建平台 搭建网站

Karmada:让跨集群弹性伸缩FederatedHPA突破新边界

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

共筑信创生态!亚信科技AntDB数据库与用友、东方通、星辰天合达成兼容互认

亚信AntDB数据库

数据库 AntDB AntDB数据库

开发微信公众号本地调试+-+cpolar内网穿透

程思扬

微信公众号 网络穿透

R2被曝5月发布!DeepSeek刚刚开源专为FP8设计的DeepGEMM,核心内核代码仅300行!_芯片&算力_褚杏娟_InfoQ精选文章