写点什么

R2 被曝 5 月发布!DeepSeek 刚刚开源专为 FP8 设计的 DeepGEMM,核心内核代码仅 300 行!

  • 2025-02-26
    北京
  • 本文字数:784 字

    阅读完需:约 3 分钟

大小:394.39K时长:02:14
R2被曝5月发布!DeepSeek刚刚开源专为FP8设计的DeepGEMM,核心内核代码仅300行!

报道称,DeepSeek 正在加速推出其 R2 人工智能模型,其最初计划在五月推出,但目前正在努力尽快推出。


而就在刚刚,DeepSeek 开源了 DeepGEMM,一个专为简洁高效的 FP8 通用矩阵乘法(GEMMs)设计的库,具有细粒度缩放功能(如 DeepSeek-V3 中提出的方案)。



该库采用 CUDA 编写,采用轻量级即时编译(JIT)模块,安装时无需编译(所有内核在运行时编译)。它支持普通 GEMMs 以及专家混合 (MoE) 分组 GEMMs。

 

目前,DeepGEMM 仅支持 NVIDIA Hopper 张量核心,该库使用 CUDA 核心两级累加(promotion)(晋升)策略来解决 FP8 张量核心累加不精确问题。尽管 DeepGEMM 借鉴了 CUTLASS 和 CuTe 的一些理念,但避免了过度依赖模板或复杂的代数结构。该库设计简洁,仅包含一个核心内核函数,代码大约只有 300 行左右。

 


按照 CUTLASS 设计,DeepGEMM 中的内核经过了 warp 专门化,可实现重叠数据移动、张量核心 MMA 指令和 CUDA 核心提升。DeepGEMM 使用 TMA 加载 LHS、RHS 和缩放因子,以及存储输出矩阵。

 

尽管设计轻量,DeepGEMM 的性能在各种矩阵形状下均能匹配或超越经过专家调优的库。

 

DeepSeek 在配备 NVCC 12.8 的 H800 计算卡上对 DeepSeek-V3/R1 推理流程(包含预填充和解码阶段,除了张量并行场景)可能涉及的所有矩阵形状进行全量测试,所有加速性能指标均基于 CUTLASS 3.6 深度优化的内部实现作为基准对比。DeepGEMM 在部分特定矩阵形状上的性能表现仍有提升空间。




“虽然 FP8 在生产中还处于相对早期阶段,但 DeepGEMM 代表着在使 FP8 成为大规模 MoE 模型的可行选择方面迈出了重要一步。朋友们,这真是太酷了。”有网友评价。

 

使用要求:

Hopper 架构 GPU,sm_90a 必须支持

Python 3.8 或更高版本

CUDA 12.3 或更高版本(官方强烈建议使用 12.8 或更高版本)

PyTorch 2.1 或更高版本

CUTLASS 3.6 或更高版本(可以通过 Git 子模块克隆)

 

开源地址(MIT 许可证):

https://github.com/deepseek-ai/DeepGEMM

2025-02-26 10:569774

评论

发布
暂无评论

如何高效的匹配、筛选数据,避免嵌套循环

六哥是全栈

Java ts 开发技巧

NGINX 和 HAProxy:基于公有云标准环境的用户体验测试对比

NGINX开源社区

读书笔记 开源 最佳实践 反向代理 HAProxy

替换传统数据处理平台,TDengine 与华风数据达成合作

TDengine

数据库 tdengine 时序数据库

火山引擎携手招商银行共探智能体应用,加速数字金融创新

新消费日报

爱回收商品详情数据接口

tbapi

爱回收API 爱回收商品详情数据接口

现在的 AI ,有多会做老师?

TRAE

Python 人工智能 程序员 AI 求职

互联网大厂Java面试高手心法,在寒潮之下找到自己心仪的 offer。

码哥字节

Java 后端面试

mac苹果电脑矢量绘图软件:Sketch for mac 中文激活版

你的猪会飞吗

sketch Mac Mac软件下载站 mac破解软件下载

GitHub Star 数量前 13 的自托管项目清单

NocoBase

GitHub 开源 自托管 self-hosted

化“腐朽”为“神奇”:5 种 RAG 优化技术应对千奇百怪的 Query

Baihai IDP

程序员 AI rag Baihai IDP 企业 9 月 PK 榜

防城港等保测评机构有哪些?在哪里?

行云管家

等保 等级保护 防城港

新闻“样板间”提升50%开发效率,20家新闻媒体应用批量鸿蒙化

最新动态

关于粒子滤波的解析

芯动大师

粒子滤波

读书笔记:简单高效的工作方式

老张

读书笔记 团队管理 远程办公

GreatSQL 异步复制及搭建

GreatSQL

Go必知必会:掌握Go语言中的Channel,并发编程的核心

王中阳Go

并发 channel Go 语言 GO语言编程

对接开源大模型应用开发平台最佳实践

阿里云大数据AI技术

人工智能 LLM rag OpenSearch dify

鸿蒙NEXT生态应用核心技术理念:一次开发,多端部署

芯盾时代

鸿蒙 物联网 国产化替代

支撑AI的算力芯片,未来何去何从?

博文视点Broadview

StarRocks 培训课程重磅上线!专家出品,助你升级打怪不走弯路!

StarRocks

健康产业怎么定义?需要用到堡垒机吗?

行云管家

网络安全 数据安全 堡垒机 健康产业

洞悉市场脉搏,从实时监控商品信息开始 —— 淘宝API的力量

技术冰糖葫芦

API Explorer平台 api 网关 API Gateway API 测试 pinduoduo API

参赛心得和思路分享:2021第二届云原生编程挑战赛2: 实现一个柔性集群调度机制

阿里云天池

云原生

对游戏语音软件Oopz遭遇DDoS攻击后的一些建议

网络安全服务

负载均衡 udp 语音聊天软件 DDoS 攻击 黑神话悟空

华为视频独家呈现:发布会开场舞《见非凡》AiMax 版来袭

最新动态

R2被曝5月发布!DeepSeek刚刚开源专为FP8设计的DeepGEMM,核心内核代码仅300行!_芯片&算力_褚杏娟_InfoQ精选文章