写点什么

DeepSeek 开源周首日:先让 GPU 飞起来

  • 2025-02-24
    北京
  • 本文字数:765 字

    阅读完需:约 3 分钟

大小:382.79K时长:02:10
DeepSeek开源周首日:先让GPU飞起来

刚刚,DeepSeek 发布了第一个开源存储库,目前已获超 800 Star。

 

据介绍,FlashMLA 是适用于 Hopper GPU 的高效 MLA 解码内核,针对可变长度序列服务进行了优化,要求是 Hopper GPU、CUDA 12.3 及更高版本及 PyTorch 2.0 及更高版本。


 

项目地址:https://github.com/deepseek-ai/FlashMLA

 

FlashMLA 的主要特性是:

 

  • BF16 支持:FlashMLA 支持 BF16(Bfloat16)数据类型,这使得它在计算和内存使用上更加高效。

  • 分页 KV 缓存:通过分页机制管理键值(KV)缓存,块大小为 64,这使得它能够高效处理大规模序列。

  • 高性能:在搭载 CUDA 12.6 的 H800 SXM5 上,在受内存限制的配置下可实现高达 3000 GB/秒的速度,在受计算能力限制的配置下可达到 580 万亿次浮点运算每秒(TFLOPS)。 

 

FlashMLA 的灵感来自 FlashAttention 2&3 和 cutlass 项目。cutlass 是一个 CUDA C++ 模板抽象集合,用于在 CUDA 内的所有级别和规模上实现高性能矩阵-矩阵乘法(GEMM)和相关计算。它采用了分层分解和数据移动策略,与用于实现 cuBLAS 和 cuDNN 的策略类似。


cutlass 将这些 “移动部件 ”分解为由 C++ 模板类抽象出来的可重用模块化软件组件。概念并行化层次结构中不同层次的原语可以通过自定义平铺尺寸、数据类型和其他算法策略进行专门化和调整。由此产生的灵活性简化了它们在定制内核和应用程序中作为构建模块的使用。


 

另值得一提的是,MLA(Multi-Head Latent Attention,多头潜在注意力机制 )是 DeepSeek 模型低成本训练的一个关键技术,即 DeepSeek 在 DeepSeek-V2 模型和 DeepSeek-V3 模型中用于高效推理的核心注意力机制,通过低秩联合压缩技术, 减少了推理时的键值(KV)缓存,从而在保持性能的同时显著降低了内存占用。

 




在 X 上,一条关于“DeepSeek 开源周的第一天你期待他们发布什么”的投票引发诸多讨论,其中呼声最高的选项是希望 DeepSeek 在第一天就可以开源一款网页搜索产品。



2025-02-24 11:406322

评论

发布
暂无评论

抄作业

escray

学习 CSD 认证实战营

GrowingIO 微服务 SaaS 与私有部署运行实践

GrowingIO技术专栏

大数据 微服务 SaaS

Java 编程基础

michaelliu

读懂才会用 : 瞅瞅Redis的epoll模型

小眼睛聊技术

redis 缓存 学习 开源 架构 后端

如何推动与影响中型前端团队的成长

堂主

研发管理 大前端 团队建设

CDN百科 | 最近,你的APP崩了吗?

阿里云Edge Plus

CDN

并发编程如何才能不再头疼:iOS中的协程

超越杨超越

ios 协程 coobjc ucontext

Kafka系列第6篇:消息是如何在服务端存储与读取的,你真的知道吗?

z小赵

Java 大数据 kafka 实时计算

奔向 10W+ 的第一次 update

赵新龙

InfoQ B站 Quora

用测试驱动开发学算法

escray

学习 CSD 认证实战营

DD 测试linux性能

HU

TOTO 2020再次荣获iF、红点两项国际设计大奖

极客编

概念有时候很坑

伯薇

抽象 思考力 沟通 概念

一杯茶的时间,上手 Git 团队协作开发

图雀社区

git GitHub

谈谈控制感(2):怎么让我们更健康

史方远

个人成长 心理

由丰巢快递柜引发的思考

Neco.W

创业 思考 丰巢

视达荣登ChinaBang Awards 2020智慧零售榜Top10

极客编

我站在愚蠢之巅

escray

学习 CSD 认证实战营

KubeFATE:在Kubernetes上部署联邦学习平台

亨利笔记

人工智能 学习 FATE KUBEFATE

CDN云课堂 | EdgeRoutine技术专家教你把JS代码跑到CDN边缘

阿里云Edge Plus

Java CDN edge

一文看懂开源工作流引擎 Flowable

八味阁

Java spring 开源 企业中台 工作流

MySQL数据类型DECIMAL用法

Simon

MySQL

想退休,可能没机会了

池建强

读书感悟

CDN百科 | 假如没有CDN,网络世界会变成什么样?

阿里云Edge Plus

用SpreadJS实现在线Excel的录入与展示,提升企业医保信息化服务水平

葡萄城技术团队

SpreadJS 医保信息化 在线excel

游戏夜读 | 如何优化缓冲加载?

game1night

多个 SSH keys 的配置,方便 Git 对不同仓库的使用与管理

与光

git GitHub SSH

聊聊Serverless

kimmking

《Linux就该这么学》笔记(二)

编程随想曲

Linux

CDN云课堂 |可编程CDN – EdgeScript应用场景、语言速览和实操演示

阿里云Edge Plus

可视化 Tekton 组件 Tekton Dashboard

郭旭东

Kubernetes cicd

DeepSeek开源周首日:先让GPU飞起来_生成式 AI_华卫_InfoQ精选文章