写点什么

DeepSeek V4 重磅开源!首次打通华为 Ascend,也没丢掉英伟达,百万上下文夺回国产模型话语权

  • 2026-04-24
    北京
  • 本文字数:7538 字

    阅读完需:约 25 分钟

刚刚,DeepSeek 在官方公众号发文宣布,全新系列模型 DeepSeek-V4 的预览版本正式上线,并同步开源!

 

DeepSeek-V4 拥有百万字超长上下文,在 Agent 能力、世界知识和推理性能三大维度上均实现了国内与开源领域的领先。

 

秉承 DeepSeek 一贯的开放精神,本次发布的模型按大小分为两个版本,欢迎开发者、研究者和企业用户前往体验和下载。

 

模型按大小分为两个版本:

  • DeepSeek-V4 模型开源链接:

https://huggingface.co/collections/deepseek-ai/deepseek-v4

https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4

  • DeepSeek-V4 技术报告:

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

 

Pro 版本面向的是高性能,Flash 版本则主攻性价比。

 

API 服务已同步更新,通过修改 model_name 为 deepseek-v4-pro 或 deepseek-v4-flash 即可调用。

 

从技术报告来看,有一点特别值得注意,DeepSeek V4 并不是只在 NVIDIA 体系内做优化,而是明确将细粒度专家并行(EP)方案同时在 NVIDIA GPU 和华为 Ascend NPU 上完成验证,这说明其推理路径已经具备跨算力平台的适配能力。但在开源层面,当前释放的仍主要是基于 CUDA 的 MegaMoE 和 DeepGEMM,底层实现深度绑定 NVIDIA 工具链。

 

另外,官方 API 页面还提到,受限于高端算力,目前 V4-Pro 的服务吞吐仍有限,预计下半年昇腾 950 超节点批量上市后,Pro 价格会大幅下调。这意味着,DeepSeek 一边在现有 CUDA 生态内持续做极致优化,一边也在为华为 Ascend 等多算力环境预留空间,开始尝试把模型运行时从单一硬件依赖中解耦出来。

DeepSeek-V4-Pro:性能比肩顶级闭源模型

  • Agent 能力大幅提高:相比前代模型,DeepSeek-V4-Pro 的 Agent 能力显著增强。在 Agentic Coding 评测中,V4-Pro 已达到当前开源模型最佳水平,并在其他 Agent 相关评测中同样表现优异。目前 DeepSeek-V4 已成为公司内部员工使用的 Agentic Coding 模型,据评测反馈使用体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式,但仍与 Opus 4.6 思考模式存在一定差距。

 

  • 丰富的世界知识:DeepSeek-V4-Pro 在世界知识测评中,大幅领先其他开源模型,仅稍逊于顶尖闭源模型 Gemini-Pro-3.1。

 

  • 世界顶级推理性能:在数学、STEM、竞赛型代码的测评中,DeepSeek-V4-Pro 超越当前所有已公开评测的开源模型,取得了比肩世界顶级闭源模型的优异成绩。

 

DeepSeek-V4-Flash:主攻性价比

 

  • 相比 DeepSeek-V4-Pro,DeepSeek-V4-Flash 在世界知识储备方面稍逊一筹,但展现出了接近的推理能力。而由于模型参数和激活更小,相较之下 V4-Flash 能够提供更加快捷、经济的 API 服务。

 

  • 在 Agent 测评中,DeepSeek-V4-Flash 在简单任务上与 DeepSeek-V4-Pro 旗鼓相当,但在高难度任务上仍有差距。

 

百万上下文已成标配

 

官方公众号文章中介绍,DeepSeek-V4 开创了一种全新的注意力机制,在 token 维度进行压缩,结合 DSA 稀疏注意力(DeepSeek Sparse Attention),实现了全球领先的长上下文能力,并且相比于传统方法大幅降低了对计算和显存的需求。

 

从现在开始,1M(一百万)上下文将是 DeepSeek 所有官方服务的标配。

 

DeepSeek-V4 和 DeepSeek-V3.2 的计算量和显存容量随上下文长度的变化

 

值得注意的是,DeepSeek-V4 还针对 Claude Code 、OpenClaw、OpenCode、CodeBuddy 等主流的 Agent 产品进行了适配和优化,在代码任务、文档生成任务等方面表现均有提升。下图为 V4-Pro 在某 Agent 框架下生成的 PPT 内页示例:

 

目前,DeepSeek API 已同步上线 V4-Pro 与 V4-Flash,支持 OpenAI ChatCompletions 接口与 Anthropic 接口。访问新模型时,base_url 不变, model 参数需要改为 deepseek-v4-pro 或 deepseek-v4-flash。

 

V4-Pro 和 V4-Flash 均提供 1M 上下文长度,并同时支持非思考模式与思考模式。后者可通过 reasoning_effort 参数调节思考强度(可选 high 或 max)。对于复杂的 Agent 类任务,建议启用思考模式并将强度设为 max。具体调用方式及参数设置请查阅 API 文档。

 

需注意:旧接口中的 deepseek-chat 和 deepseek-reasoner 两个模型名将于 2026 年 7 月 24 日 停止使用。过渡期内,它们分别指向 deepseek-v4-flash 的非思考模式与思考模式。

拆解关键技术创新

混合注意力机制

 

CSA 与 HCA 是关键创新是 V4 系列最关键的创新之一。传统注意力机制处理长序列时,每个 token 都需要与所有历史 token 计算注意力,导致计算量随序列长度平方增长。V4 设计了两种互补的压缩注意力架构:

 

压缩稀疏注意力(CSA):首先将每 m 个 token 的 KV 缓存压缩为 1 个条目(m=4),然后使用 DeepSeek 稀疏注意力,每个查询 token 仅需关注 k 个压缩后的 KV 条目(k=512~1024),引入 Lightning Indexer(轻量索引器)高效选出重要的压缩块,整体将序列长度压缩至 1/m。

 

高度压缩注意力(HCA):采用更激进的压缩率(m'=128),将每 128 个 token 压缩为 1 个,保持稠密注意力(不稀疏),适用于信息密度较低的场景,CSA 与 HCA 以交错方式堆叠,兼顾效率与表达力。

 

工程亮点:支持 RoPE 部分位置编码(仅最后 64 维),维持相对位置信息;引入滑动窗口注意力分支捕获局部依赖;采用 Attention Sink 技术让注意力得分总和可以不为 1。

 

此外,Engram 和 mHC 两个版块上的创新也同样很关键。

Engram 记忆模块

 

首先是 Engram (条件记忆模块):这是 DeepSeek 创始人梁文锋署名论文中的核心概念。它试图解决传统 Transformer 架构将记忆与推理混为一谈的根本问题,模型既需要用注意力去“检索”知识,又需要用注意力去“推理”。

 

工作原理是 Engram 将模型能力从连续的神经计算转移到确定性的哈希查找。它将那些固定的、需要记忆的模式(如实体名、固定搭配)存入一个类似“字典”的查找表中,使模型能以 O(1) 的复杂度快速调用,而无需消耗大量算力去“计算”记忆。

 

实际效果:这使得模型能将宝贵的注意力资源解放出来,专注于复杂的组合与推理任务。在实验阶段,一个集成了 270 亿参数 Engram 的模型,在参数和浮点运算次数(FLOPs)同等的情况下,性能超过了纯 MoE 模型。

mHC 流形约束超连接

 

mHC (流形约束超连接,Manifold-Constrained Hyper-Connections):这是一个旨在解决极深网络训练不稳定性的创新。传统 Transformer 模型在堆叠到很深的时候,容易出现梯度爆炸或消失等信号 degradation 问题。

 

通过将连接矩阵约束在双随机矩阵流形上,mHC 确保了信号增益在每一层都保持稳定(约 1.6 倍),从而让深层表示得以保留。这使训练更深、更强的模型成为可能,将计算利用率从行业平均的约 60%提升到了 85%以上,同时减少了 30%+的原始计算依赖。

 

除了核心架构的创新,V4 在训练和推理工程层面也进行了大量优化。

Muon 优化器:万亿参数的新训练范式

V4 首次在万亿参数 MoE 模型上大规模采用 Muon 优化器。

 

团队设计了一套混合 Newton-Schulz 迭代策略:前 8 步使用快速收敛系数,后 2 步切换为稳定系数,在正交化精度与收敛速度间取得最优。为解决 ZeRO 并行与 Muon 需要完整梯度矩阵的矛盾,团队设计了混合 ZeRO 分配策略——稠密参数限制并行度并用背包算法负载均衡,MoE 专家参数独立展平后均匀分布。进一步地,MoE 梯度在同步前以随机舍入方式量化到 BF16,通信量减半;同时采用“all-to-all + 本地 FP32 求和”规避低精度加法器的累积误差。

FP4 量化:无损压缩与推理加速

V4 在 MoE 专家权重和 CSA 索引器的 QK 路径上应用了 FP4 量化感知训练。一个关键发现是:FP4 到 FP8 的解量化是无损的——因为 FP8 拥有更大的动态范围,FP4 子块的细粒度尺度信息可以被完全吸收。这使得整个量化流程可以无缝复用现有的 FP8 训练框架。

在推理和 RL rollout 阶段,直接使用真实 FP4 权重,实现实时的显存节省和计算加速。对索引器分数的 FP32→BF16 量化更是带来了 2 倍加速,同时保持 99.7%的召回率。

专家并行:通信-计算深度融合

MoE 模型的专家并行受限于跨节点通信。传统方案中,Dispatch 和 Combine 阶段是纯通信瓶颈。V4 的创新是将专家切分为“波”——每个波包含一小部分专家。当波内专家的通信完成后,计算立即开始,无需等待其他专家。稳态下,当前波的计算、下一波的 token 传输、已完成专家的结果发送三者同时进行。这一细粒度流水线在 NVIDIA GPU 和华为昇腾 NPU 上实现 1.5~1.73 倍加速,在 RL rollout 等高敏感场景下可达 1.96 倍。

 

团队还提出了硬件设计建议:当前每 GBps 互联带宽足以覆盖 6.1 TFLOP/s 的计算需求,盲目增加带宽会带来收益递减。这一洞察对未来 AI 加速器设计具有指导意义。

确定性内核:大规模训练的可复现性保障

训练万亿参数模型时,非确定性行为可能导致难以调试的 loss 尖峰。

V4 实现了全面的批量不变性和确定性:任何 token 的输出不因 batch 内位置而改变;每次运行的梯度累积顺序保持一致。技术难点包括:注意力反向传播中放弃 split-KV 方案,改用双核策略(满波时单 SM 处理、部分波时多 SM 协作但保证累积顺序);MoE 反向传播通过 rank 内 token 顺序预处理加 rank 间 buffer 隔离解决竞争;mHC 中小矩阵乘法(输出维度仅 24)被迫使用 split-k 时,先输出各 split 部分再通过专用核确定性归约。

这些工程打磨使得大规模训练的可复现性达到新高度。

TileLang DSL:高性能内核的高效开发

为支撑数百个融合核的开发,V4 团队采用 TileLang 领域特定语言,并实现了主机代码生成——将数据类型、形状约束等元数据嵌入生成的 launcher 中,运行时验证开销从数十微秒降至 1 微秒以下。同时集成 Z3 SMT 求解器进行形式整数分析,支持向量化优化、屏障插入等高级编译优化。严格对齐数值精度与 CUDA 工具链,保证 bit 级可重现性。

训练稳定性:预知路由与 SwiGLU 钳位

万亿 MoE 模型的训练稳定性是一大挑战。V4 识别出 loss 尖峰与 MoE 层异常值的强相关性,且路由机制会加剧异常值。为此设计了预知路由:在 step t 使用历史参数θ_{t-Δt}计算路由索引,当前参数仅做特征计算,通过管线执行与通信重叠将额外开销控制在 20%,且仅在尖峰发生时动态激活。

 

配合 SwiGLU 钳位(线性分量钳位到[-10,10],门控分量上界钳位到 10),有效消除了异常值,且不影响性能。

框架层优化:长上下文 RL 落地

V4 的框架优化覆盖了训练与推理全流程:

 

  • 上下文并行适配:两阶段通信策略解决压缩边界跨 rank 的问题,每个 rank 发送最后 m 个未压缩 KV,all-gather 后融合为完整序列。

  • 张量级激活检查点:扩展自动微分框架,支持对单个张量标注重计算,框架自动计算最小重计算子图,释放显存并复用指针,开发者无需关心底层内存细节。

  • 异构 KV 缓存管理:分离状态缓存(SWA+未就绪压缩 token)和经典 KV 缓存,支持磁盘存储以实现共享前缀请求的零重复预填充。

后训练范式:同策略蒸馏

V4 的后训练采用“独立专家训练→同策略蒸馏”两阶段范式。首先针对数学、代码、Agent、指令跟随等领域独立训练专家模型,每个专家经过 SFT 和 GRPO 强化学习,支持三种推理模式(Non-think/Think High/Think Max)。

 

特别地,使用了生成式奖励模型替代传统标量奖励模型,模型的 actor 与 judge 角色统一,将推理能力内化到评估中。

 

然后通过同策略蒸馏将十多个专家融合到一个统一模型。采用逆向 KL 散度作为目标,并使用全词表 logit 蒸馏(而非 token 级 KL 估计),梯度估计更稳定。工程上,教师权重 offload 到分布式存储,仅缓存最后一层 hidden states,训练样本按教师索引排序确保每个教师头只加载一次,使得在万亿参数级别进行多教师蒸馏成为现实。

 

不得不说,DeepSeek-V4-Pro-Max(最大推理强度模式)在多项基准上重新定义了开源模型的天花板:

 

  • 知识:SimpleQA-Verified 达到 57.9%,远超前代开源模型(约 30%);

  • 编程:Codeforces Elo 3206 分,排名人类第 23,首次有开源模型在该任务上追平 GPT-5.4;

  • Agent:SWE-Verified 80.6%,接近 Claude Opus 4.6 的 80.8%;Terminal Bench 2.0 67.9%,与 GPT-5.4 的 68.5%持平;

  • 中文任务:功能性写作以 62.7%的胜率优于 Gemini 3.1 Pro,创意写作在写作质量维度达到 77.5%胜率。

 

V4-Flash-Max 则以极低成本实现了与 GPT-5.2 和 Gemini 3.0 Pro 相当的推理性能,证明了高效架构的可行性。

过去一年 DeepSeek 重要发布回顾

 

2025 年除夕夜,当大多数用户还沉浸在年味中时,DeepSeek 低调发布了 DeepSeek-R1。没有发布会、没有铺天盖地的宣发,但几天之内,这个模型迅速在技术社区、研究圈与开发者社群中扩散开来。事后来看,R1 更像是一个信号:推理模型,开始从“研究话题”走向“工程现实”。

 

DeepSeek 发布了在数学、代码编写和逻辑推理方面表现卓越的 DeepSeek-R1 模型。其性能直追 OpenAI o1,并能够展示详尽的思维链。该模型通过 MIT 协议开源了相关权重和代码,不仅产生了深远的技术影响,更直接重塑了全球开源与商业大模型,乃至中美大模型的技术竞争格局。

 

R1 之后:持续迭代,而非“一次性爆款”。

 

3 月 25 日,DeepSeek V3 模型已完成小版本升级,欢迎前往官方网页、APP、小程序试用体验(关闭深度思考),API 接口和使用方式保持不变。

 

DeepSeek 反馈称此次 DeepSeek-V3 的小版本升级,版本号为 V3-0324,主要聚焦于体验优化和性能提升。在官方网页、App 和小程序中,用户关闭“深度思考”功能,可获取更快的响应速度,适合对实时性要求高的场景(如简单问答、代码片段生成)。

 

5 月 28 日,DeepSeek R1 模型已完成小版本升级,版本为 DeepSeek-R1-0528。这款开源大模型支持 128K 超长上下文,中文能力超越 GPT-4-Turbo 登顶 SuperCLUE 榜首,代码性能媲美顶级闭源模型。亮点包括:处理整本小说/超长文档的"大海捞针"能力、MIT 开源协议支持商用、免费开放使用。适用场景涵盖企业文档分析、教育科研、编程辅助等。

 

8 月 21 日,DeepSeek-V3.1 正式发布。本次升级包含以下主要变化:

 

  • 混合推理架构:一个模型同时支持思考模式与非思考模式;

  • 更高的思考效率:相比 DeepSeek-R1-0528,DeepSeek-V3.1-Think 能在更短时间内给出答案;

  • 更强的 Agent 能力:通过 Post-Training 优化,新模型在工具使用与智能体任务中的表现有较大提升。

 

官方 App 与网页端模型已同步升级为 DeepSeek-V3.1。用户可以通过“深度思考”按钮,实现思考模式与非思考模式的自由切换。

 

DeepSeek-V3.1 上下文已扩展为 128K。同时,API Beta 接口支持了 strict 模式的 Function Calling,以确保输出的 Function 满足 schema 定义。

 

9 月 22 日,DeepSeek-V3.1 已更新至 DeepSeek-V3.1-Terminus 版本。据 DeepSeek 介绍,此次更新在保持模型原有能力的基础上,针对用户反馈的问题进行了改进,包括:语言一致性:缓解中英文混杂、偶发异常字符等情况。在 Agent(智能体)能力方面,进一步优化 Code Agent 与 Search Agent 的表现,DeepSeek-V3.1-Terminus 的输出效果相比前一版本更加稳定。

9 月 29 日,DeepSeek 发布 DeepSeek-V3.2-Exp 模型,这是一个实验性(Experimental)的版本。

 

作为迈向新一代架构的中间步骤,V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的优化和验证。

 

DeepSeek Sparse Attention(DSA)首次实现了细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅提升。

 

12 月 1 日,DeepSeek 官方同时发布两个正式版模型:DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。

 

DeepSeek-V3.2 的目标是平衡推理能力与输出长度,适合日常使用,例如问答场景和通用 Agent 任务场景。

 

在公开的推理类 Benchmark 测试中,DeepSeek-V3.2 达到了 GPT-5 的水平,仅略低于 Gemini-3.0-Pro;相比 Kimi-K2-Thinking,V3.2 的输出长度大幅降低,显著减少了计算开销与用户等待时间。

 

DeepSeek-V3.2-Speciale 的目标是将开源模型的推理能力推向极致,探索模型能力的边界。

V3.2-Speciale 是 DeepSeek-V3.2 的长思考增强版,同时结合了 DeepSeek-Math-V2 的定理证明能力。该模型具备更好的指令跟随、数学证明与逻辑验证能力,在主流推理基准测试上的性能表现媲美 Gemini-3.0-Pro。

 

V3.2-Speciale 模型成功斩获 IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)、ICPC World Finals 2025(国际大学生程序设计竞赛全球总决赛)及 IOI 2025(国际信息学奥林匹克)金牌。其中,ICPC 与 IOI 成绩分别达到了人类选手第二名与第十名的水平。

DeepSeek 官方表示,在高度复杂任务上,Speciale 模型大幅优于标准版本,但消耗的 Tokens 也显著更多,成本更高。目前,DeepSeek-V3.2-Speciale 仅供研究使用,不支持工具调用,暂未针对日常对话与写作任务进行专项优化。

 

再然后到了 2026 年 1 月 13 日,喜欢闷声做大事的 DeepSeek 再次发布重大技术成果,在其 GitHub 官方仓库开源了新论文与模块 Engram,论文题为 “Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models”,梁文锋再次出现在合著者名单中。

 

与传统的大模型架构相比,该方法提出了一种新的“查—算分离”机制,通过引入可扩展的查找记忆结构,在等参数、等算力条件下显著提升模型在知识调用、推理、代码、数学等任务上的表现。代码与论文全文均已开源。

 

论文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

代码地址:https://github.com/deepseek-ai/Engram

 

这种查和算分离的 Engram 新方法的整体架构如下图所示:

 

我们为什么需要 Engram ?

 

目前主流的大语言模型架构依然基于 Transformer 和 Mixture-of-Experts(MoE)结构。MoE 是目前推进参数规模和能力扩展的关键技术之一,通过动态路由机制,只激活部分参数以降低计算成本,同时在任务容量方面实现大规模扩展。DeepSeek 自家系列模型(如 DeepSeek V2、DeepSeek V3 等)也采用了先进的 MoE 方法进行扩展训练。

 

但在这些传统的 Transformer 架构(无论是 Dense 还是 MoE)中,模型的参数实际上承担着两种截然不同的角色:

 

事实性记忆(Memorization): 存储海量的知识事实。例如,“法国的首都是哪里?”、“世界最高的山脉是哪座”等。这类信息相对死板,更多依赖于“查表”式的检索。

 

逻辑推理与计算(Calculation): 负责复杂的逻辑链条、多步推理和情境理解。例如,“根据这段代码的逻辑推导可能的 Bug”、“解析一段复杂的哲学论证”。

 

目前的大语言模型倾向于将这两者混在一起。当你试图让模型记住更多知识时,你不得不增加参数量。而在传统的 Dense 模型中,参数量增加意味着前向传播时的计算量(FLOPs)也会同步激增。MoE 架构虽然通过稀疏激活解决了“算力随参数同步爆炸”的问题,但 DeepSeek 研究发现,MoE 专家在处理“死记硬背”的任务时依然不够高效。

 

神经网络本质上是连续的数学变换,用高昂的矩阵运算去模拟简单的“查表检索”,本身就是一种极大的浪费。DeepSeek 的 Engram 正是为了打破这一困境——“该查表的查表,该算的算”。

参考链接:https://mp.weixin.qq.com/s/8bxXqS2R8Fx5-1TLDBiEDg