DeepSeek V4 重磅开源！首次打通华为Ascend，也没丢掉英伟达，百万上下文夺回国产模型话语权

刚刚，DeepSeek 在官方公众号发文宣布，全新系列模型 DeepSeek-V4 的预览版本正式上线，并同步开源！

DeepSeek-V4 拥有百万字超长上下文，在 Agent 能力、世界知识和推理性能三大维度上均实现了国内与开源领域的领先。

秉承 DeepSeek 一贯的开放精神，本次发布的模型按大小分为两个版本，欢迎开发者、研究者和企业用户前往体验和下载。

模型按大小分为两个版本：

DeepSeek-V4 模型开源链接：

https://huggingface.co/collections/deepseek-ai/deepseek-v4

https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4

DeepSeek-V4 技术报告：

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

Pro 版本面向的是高性能，Flash 版本则主攻性价比。

API 服务已同步更新，通过修改 model_name 为 deepseek-v4-pro 或 deepseek-v4-flash 即可调用。

从技术报告来看，有一点特别值得注意，DeepSeek V4 并不是只在 NVIDIA 体系内做优化，而是明确将细粒度专家并行（EP）方案同时在 NVIDIA GPU 和华为 Ascend NPU 上完成验证，这说明其推理路径已经具备跨算力平台的适配能力。但在开源层面，当前释放的仍主要是基于 CUDA 的 MegaMoE 和 DeepGEMM，底层实现深度绑定 NVIDIA 工具链。

另外，官方 API 页面还提到，受限于高端算力，目前 V4-Pro 的服务吞吐仍有限，预计下半年昇腾 950 超节点批量上市后，Pro 价格会大幅下调。这意味着，DeepSeek 一边在现有 CUDA 生态内持续做极致优化，一边也在为华为 Ascend 等多算力环境预留空间，开始尝试把模型运行时从单一硬件依赖中解耦出来。

DeepSeek-V4-Pro：性能比肩顶级闭源模型

Agent 能力大幅提高：相比前代模型，DeepSeek-V4-Pro 的 Agent 能力显著增强。在 Agentic Coding 评测中，V4-Pro 已达到当前开源模型最佳水平，并在其他 Agent 相关评测中同样表现优异。目前 DeepSeek-V4 已成为公司内部员工使用的 Agentic Coding 模型，据评测反馈使用体验优于 Sonnet 4.5，交付质量接近 Opus 4.6 非思考模式，但仍与 Opus 4.6 思考模式存在一定差距。

丰富的世界知识：DeepSeek-V4-Pro 在世界知识测评中，大幅领先其他开源模型，仅稍逊于顶尖闭源模型 Gemini-Pro-3.1。

世界顶级推理性能：在数学、STEM、竞赛型代码的测评中，DeepSeek-V4-Pro 超越当前所有已公开评测的开源模型，取得了比肩世界顶级闭源模型的优异成绩。

DeepSeek-V4-Flash：主攻性价比

相比 DeepSeek-V4-Pro，DeepSeek-V4-Flash 在世界知识储备方面稍逊一筹，但展现出了接近的推理能力。而由于模型参数和激活更小，相较之下 V4-Flash 能够提供更加快捷、经济的 API 服务。

在 Agent 测评中，DeepSeek-V4-Flash 在简单任务上与 DeepSeek-V4-Pro 旗鼓相当，但在高难度任务上仍有差距。

百万上下文已成标配

官方公众号文章中介绍，DeepSeek-V4 开创了一种全新的注意力机制，在 token 维度进行压缩，结合 DSA 稀疏注意力（DeepSeek Sparse Attention），实现了全球领先的长上下文能力，并且相比于传统方法大幅降低了对计算和显存的需求。

从现在开始，1M（一百万）上下文将是 DeepSeek 所有官方服务的标配。

DeepSeek-V4 和 DeepSeek-V3.2 的计算量和显存容量随上下文长度的变化

值得注意的是，DeepSeek-V4 还针对 Claude Code 、OpenClaw、OpenCode、CodeBuddy 等主流的 Agent 产品进行了适配和优化，在代码任务、文档生成任务等方面表现均有提升。下图为 V4-Pro 在某 Agent 框架下生成的 PPT 内页示例：

目前，DeepSeek API 已同步上线 V4-Pro 与 V4-Flash，支持 OpenAI ChatCompletions 接口与 Anthropic 接口。访问新模型时，base_url 不变, model 参数需要改为 deepseek-v4-pro 或 deepseek-v4-flash。

V4-Pro 和 V4-Flash 均提供 1M 上下文长度，并同时支持非思考模式与思考模式。后者可通过 reasoning_effort 参数调节思考强度（可选 high 或 max）。对于复杂的 Agent 类任务，建议启用思考模式并将强度设为 max。具体调用方式及参数设置请查阅 API 文档。

需注意：旧接口中的 deepseek-chat 和 deepseek-reasoner 两个模型名将于 2026 年 7 月 24 日停止使用。过渡期内，它们分别指向 deepseek-v4-flash 的非思考模式与思考模式。

拆解关键技术创新

混合注意力机制

CSA 与 HCA 是关键创新是 V4 系列最关键的创新之一。传统注意力机制处理长序列时，每个 token 都需要与所有历史 token 计算注意力，导致计算量随序列长度平方增长。V4 设计了两种互补的压缩注意力架构：

压缩稀疏注意力（CSA）：首先将每 m 个 token 的 KV 缓存压缩为 1 个条目（m=4），然后使用 DeepSeek 稀疏注意力，每个查询 token 仅需关注 k 个压缩后的 KV 条目（k=512~1024），引入 Lightning Indexer（轻量索引器）高效选出重要的压缩块，整体将序列长度压缩至 1/m。

高度压缩注意力（HCA）：采用更激进的压缩率（m'=128），将每 128 个 token 压缩为 1 个，保持稠密注意力（不稀疏），适用于信息密度较低的场景，CSA 与 HCA 以交错方式堆叠，兼顾效率与表达力。

工程亮点：支持 RoPE 部分位置编码（仅最后 64 维），维持相对位置信息；引入滑动窗口注意力分支捕获局部依赖；采用 Attention Sink 技术让注意力得分总和可以不为 1。

此外，Engram 和 mHC 两个版块上的创新也同样很关键。

Engram 记忆模块

首先是 Engram (条件记忆模块)：这是 DeepSeek 创始人梁文锋署名论文中的核心概念。它试图解决传统 Transformer 架构将记忆与推理混为一谈的根本问题，模型既需要用注意力去“检索”知识，又需要用注意力去“推理”。

工作原理是 Engram 将模型能力从连续的神经计算转移到确定性的哈希查找。它将那些固定的、需要记忆的模式（如实体名、固定搭配）存入一个类似“字典”的查找表中，使模型能以 O(1) 的复杂度快速调用，而无需消耗大量算力去“计算”记忆。

实际效果：这使得模型能将宝贵的注意力资源解放出来，专注于复杂的组合与推理任务。在实验阶段，一个集成了 270 亿参数 Engram 的模型，在参数和浮点运算次数（FLOPs）同等的情况下，性能超过了纯 MoE 模型。

mHC 流形约束超连接

mHC (流形约束超连接，Manifold-Constrained Hyper-Connections)：这是一个旨在解决极深网络训练不稳定性的创新。传统 Transformer 模型在堆叠到很深的时候，容易出现梯度爆炸或消失等信号 degradation 问题。

通过将连接矩阵约束在双随机矩阵流形上，mHC 确保了信号增益在每一层都保持稳定（约 1.6 倍），从而让深层表示得以保留。这使训练更深、更强的模型成为可能，将计算利用率从行业平均的约 60%提升到了 85%以上，同时减少了 30%+的原始计算依赖。

除了核心架构的创新，V4 在训练和推理工程层面也进行了大量优化。

Muon 优化器：万亿参数的新训练范式

V4 首次在万亿参数 MoE 模型上大规模采用 Muon 优化器。

团队设计了一套混合 Newton-Schulz 迭代策略：前 8 步使用快速收敛系数，后 2 步切换为稳定系数，在正交化精度与收敛速度间取得最优。为解决 ZeRO 并行与 Muon 需要完整梯度矩阵的矛盾，团队设计了混合 ZeRO 分配策略——稠密参数限制并行度并用背包算法负载均衡，MoE 专家参数独立展平后均匀分布。进一步地，MoE 梯度在同步前以随机舍入方式量化到 BF16，通信量减半；同时采用“all-to-all + 本地 FP32 求和”规避低精度加法器的累积误差。

FP4 量化：无损压缩与推理加速

V4 在 MoE 专家权重和 CSA 索引器的 QK 路径上应用了 FP4 量化感知训练。一个关键发现是：FP4 到 FP8 的解量化是无损的——因为 FP8 拥有更大的动态范围，FP4 子块的细粒度尺度信息可以被完全吸收。这使得整个量化流程可以无缝复用现有的 FP8 训练框架。

在推理和 RL rollout 阶段，直接使用真实 FP4 权重，实现实时的显存节省和计算加速。对索引器分数的 FP32→BF16 量化更是带来了 2 倍加速，同时保持 99.7%的召回率。

专家并行：通信-计算深度融合

MoE 模型的专家并行受限于跨节点通信。传统方案中，Dispatch 和 Combine 阶段是纯通信瓶颈。V4 的创新是将专家切分为“波”——每个波包含一小部分专家。当波内专家的通信完成后，计算立即开始，无需等待其他专家。稳态下，当前波的计算、下一波的 token 传输、已完成专家的结果发送三者同时进行。这一细粒度流水线在 NVIDIA GPU 和华为昇腾 NPU 上实现 1.5~1.73 倍加速，在 RL rollout 等高敏感场景下可达 1.96 倍。

团队还提出了硬件设计建议：当前每 GBps 互联带宽足以覆盖 6.1 TFLOP/s 的计算需求，盲目增加带宽会带来收益递减。这一洞察对未来 AI 加速器设计具有指导意义。

确定性内核：大规模训练的可复现性保障

训练万亿参数模型时，非确定性行为可能导致难以调试的 loss 尖峰。

V4 实现了全面的批量不变性和确定性：任何 token 的输出不因 batch 内位置而改变；每次运行的梯度累积顺序保持一致。技术难点包括：注意力反向传播中放弃 split-KV 方案，改用双核策略（满波时单 SM 处理、部分波时多 SM 协作但保证累积顺序）；MoE 反向传播通过 rank 内 token 顺序预处理加 rank 间 buffer 隔离解决竞争；mHC 中小矩阵乘法（输出维度仅 24）被迫使用 split-k 时，先输出各 split 部分再通过专用核确定性归约。

这些工程打磨使得大规模训练的可复现性达到新高度。

TileLang DSL：高性能内核的高效开发

为支撑数百个融合核的开发，V4 团队采用 TileLang 领域特定语言，并实现了主机代码生成——将数据类型、形状约束等元数据嵌入生成的 launcher 中，运行时验证开销从数十微秒降至 1 微秒以下。同时集成 Z3 SMT 求解器进行形式整数分析，支持向量化优化、屏障插入等高级编译优化。严格对齐数值精度与 CUDA 工具链，保证 bit 级可重现性。

训练稳定性：预知路由与 SwiGLU 钳位

万亿 MoE 模型的训练稳定性是一大挑战。V4 识别出 loss 尖峰与 MoE 层异常值的强相关性，且路由机制会加剧异常值。为此设计了预知路由：在 step t 使用历史参数θ_{t-Δt}计算路由索引，当前参数仅做特征计算，通过管线执行与通信重叠将额外开销控制在 20%，且仅在尖峰发生时动态激活。

配合 SwiGLU 钳位（线性分量钳位到[-10,10]，门控分量上界钳位到 10），有效消除了异常值，且不影响性能。

框架层优化：长上下文 RL 落地

V4 的框架优化覆盖了训练与推理全流程：

上下文并行适配：两阶段通信策略解决压缩边界跨 rank 的问题，每个 rank 发送最后 m 个未压缩 KV，all-gather 后融合为完整序列。
张量级激活检查点：扩展自动微分框架，支持对单个张量标注重计算，框架自动计算最小重计算子图，释放显存并复用指针，开发者无需关心底层内存细节。
异构 KV 缓存管理：分离状态缓存（SWA+未就绪压缩 token）和经典 KV 缓存，支持磁盘存储以实现共享前缀请求的零重复预填充。

后训练范式：同策略蒸馏

V4 的后训练采用“独立专家训练→同策略蒸馏”两阶段范式。首先针对数学、代码、Agent、指令跟随等领域独立训练专家模型，每个专家经过 SFT 和 GRPO 强化学习，支持三种推理模式（Non-think/Think High/Think Max）。

特别地，使用了生成式奖励模型替代传统标量奖励模型，模型的 actor 与 judge 角色统一，将推理能力内化到评估中。

然后通过同策略蒸馏将十多个专家融合到一个统一模型。采用逆向 KL 散度作为目标，并使用全词表 logit 蒸馏（而非 token 级 KL 估计），梯度估计更稳定。工程上，教师权重 offload 到分布式存储，仅缓存最后一层 hidden states，训练样本按教师索引排序确保每个教师头只加载一次，使得在万亿参数级别进行多教师蒸馏成为现实。

不得不说，DeepSeek-V4-Pro-Max（最大推理强度模式）在多项基准上重新定义了开源模型的天花板：

知识：SimpleQA-Verified 达到 57.9%，远超前代开源模型（约 30%）；
编程：Codeforces Elo 3206 分，排名人类第 23，首次有开源模型在该任务上追平 GPT-5.4；
Agent：SWE-Verified 80.6%，接近 Claude Opus 4.6 的 80.8%；Terminal Bench 2.0 67.9%，与 GPT-5.4 的 68.5%持平；
中文任务：功能性写作以 62.7%的胜率优于 Gemini 3.1 Pro，创意写作在写作质量维度达到 77.5%胜率。

V4-Flash-Max 则以极低成本实现了与 GPT-5.2 和 Gemini 3.0 Pro 相当的推理性能，证明了高效架构的可行性。

过去一年 DeepSeek 重要发布回顾

2025 年除夕夜，当大多数用户还沉浸在年味中时，DeepSeek 低调发布了 DeepSeek-R1。没有发布会、没有铺天盖地的宣发，但几天之内，这个模型迅速在技术社区、研究圈与开发者社群中扩散开来。事后来看，R1 更像是一个信号：推理模型，开始从“研究话题”走向“工程现实”。

DeepSeek 发布了在数学、代码编写和逻辑推理方面表现卓越的 DeepSeek-R1 模型。其性能直追 OpenAI o1，并能够展示详尽的思维链。该模型通过 MIT 协议开源了相关权重和代码，不仅产生了深远的技术影响，更直接重塑了全球开源与商业大模型，乃至中美大模型的技术竞争格局。

R1 之后：持续迭代，而非“一次性爆款”。

3 月 25 日，DeepSeek V3 模型已完成小版本升级，欢迎前往官方网页、APP、小程序试用体验（关闭深度思考），API 接口和使用方式保持不变。

DeepSeek 反馈称此次 DeepSeek-V3 的小版本升级，版本号为 V3-0324，主要聚焦于体验优化和性能提升。在官方网页、App 和小程序中，用户关闭“深度思考”功能，可获取更快的响应速度，适合对实时性要求高的场景（如简单问答、代码片段生成）。

5 月 28 日，DeepSeek R1 模型已完成小版本升级，版本为 DeepSeek-R1-0528。这款开源大模型支持 128K 超长上下文，中文能力超越 GPT-4-Turbo 登顶 SuperCLUE 榜首，代码性能媲美顶级闭源模型。亮点包括：处理整本小说/超长文档的"大海捞针"能力、MIT 开源协议支持商用、免费开放使用。适用场景涵盖企业文档分析、教育科研、编程辅助等。

8 月 21 日，DeepSeek-V3.1 正式发布。本次升级包含以下主要变化：

混合推理架构：一个模型同时支持思考模式与非思考模式；
更高的思考效率：相比 DeepSeek-R1-0528，DeepSeek-V3.1-Think 能在更短时间内给出答案；
更强的 Agent 能力：通过 Post-Training 优化，新模型在工具使用与智能体任务中的表现有较大提升。

官方 App 与网页端模型已同步升级为 DeepSeek-V3.1。用户可以通过“深度思考”按钮，实现思考模式与非思考模式的自由切换。

DeepSeek-V3.1 上下文已扩展为 128K。同时，API Beta 接口支持了 strict 模式的 Function Calling，以确保输出的 Function 满足 schema 定义。

9 月 22 日，DeepSeek-V3.1 已更新至 DeepSeek-V3.1-Terminus 版本。据 DeepSeek 介绍，此次更新在保持模型原有能力的基础上，针对用户反馈的问题进行了改进，包括：语言一致性：缓解中英文混杂、偶发异常字符等情况。在 Agent（智能体）能力方面，进一步优化 Code Agent 与 Search Agent 的表现，DeepSeek-V3.1-Terminus 的输出效果相比前一版本更加稳定。

9 月 29 日，DeepSeek 发布 DeepSeek-V3.2-Exp 模型，这是一个实验性（Experimental）的版本。

作为迈向新一代架构的中间步骤，V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek Sparse Attention（一种稀疏注意力机制），针对长文本的训练和推理效率进行了探索性的优化和验证。

DeepSeek Sparse Attention（DSA）首次实现了细粒度稀疏注意力机制，在几乎不影响模型输出效果的前提下，实现了长文本训练和推理效率的大幅提升。

12 月 1 日，DeepSeek 官方同时发布两个正式版模型：DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。

DeepSeek-V3.2 的目标是平衡推理能力与输出长度，适合日常使用，例如问答场景和通用 Agent 任务场景。

在公开的推理类 Benchmark 测试中，DeepSeek-V3.2 达到了 GPT-5 的水平，仅略低于 Gemini-3.0-Pro；相比 Kimi-K2-Thinking，V3.2 的输出长度大幅降低，显著减少了计算开销与用户等待时间。

DeepSeek-V3.2-Speciale 的目标是将开源模型的推理能力推向极致，探索模型能力的边界。

V3.2-Speciale 是 DeepSeek-V3.2 的长思考增强版，同时结合了 DeepSeek-Math-V2 的定理证明能力。该模型具备更好的指令跟随、数学证明与逻辑验证能力，在主流推理基准测试上的性能表现媲美 Gemini-3.0-Pro。

V3.2-Speciale 模型成功斩获 IMO 2025（国际数学奥林匹克）、CMO 2025（中国数学奥林匹克）、ICPC World Finals 2025（国际大学生程序设计竞赛全球总决赛）及 IOI 2025（国际信息学奥林匹克）金牌。其中，ICPC 与 IOI 成绩分别达到了人类选手第二名与第十名的水平。

DeepSeek 官方表示，在高度复杂任务上，Speciale 模型大幅优于标准版本，但消耗的 Tokens 也显著更多，成本更高。目前，DeepSeek-V3.2-Speciale 仅供研究使用，不支持工具调用，暂未针对日常对话与写作任务进行专项优化。

再然后到了 2026 年 1 月 13 日，喜欢闷声做大事的 DeepSeek 再次发布重大技术成果，在其 GitHub 官方仓库开源了新论文与模块 Engram，论文题为 “Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models”，梁文锋再次出现在合著者名单中。

与传统的大模型架构相比，该方法提出了一种新的“查—算分离”机制，通过引入可扩展的查找记忆结构，在等参数、等算力条件下显著提升模型在知识调用、推理、代码、数学等任务上的表现。代码与论文全文均已开源。

论文地址：https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

代码地址：https://github.com/deepseek-ai/Engram

这种查和算分离的 Engram 新方法的整体架构如下图所示：

我们为什么需要 Engram ？

目前主流的大语言模型架构依然基于 Transformer 和 Mixture-of-Experts（MoE）结构。MoE 是目前推进参数规模和能力扩展的关键技术之一，通过动态路由机制，只激活部分参数以降低计算成本，同时在任务容量方面实现大规模扩展。DeepSeek 自家系列模型（如 DeepSeek V2、DeepSeek V3 等）也采用了先进的 MoE 方法进行扩展训练。

但在这些传统的 Transformer 架构（无论是 Dense 还是 MoE）中，模型的参数实际上承担着两种截然不同的角色：

事实性记忆（Memorization）：存储海量的知识事实。例如，“法国的首都是哪里？”、“世界最高的山脉是哪座”等。这类信息相对死板，更多依赖于“查表”式的检索。

逻辑推理与计算（Calculation）：负责复杂的逻辑链条、多步推理和情境理解。例如，“根据这段代码的逻辑推导可能的 Bug”、“解析一段复杂的哲学论证”。

目前的大语言模型倾向于将这两者混在一起。当你试图让模型记住更多知识时，你不得不增加参数量。而在传统的 Dense 模型中，参数量增加意味着前向传播时的计算量（FLOPs）也会同步激增。MoE 架构虽然通过稀疏激活解决了“算力随参数同步爆炸”的问题，但 DeepSeek 研究发现，MoE 专家在处理“死记硬背”的任务时依然不够高效。

神经网络本质上是连续的数学变换，用高昂的矩阵运算去模拟简单的“查表检索”，本身就是一种极大的浪费。DeepSeek 的 Engram 正是为了打破这一困境——“该查表的查表，该算的算”。

参考链接：https://mp.weixin.qq.com/s/8bxXqS2R8Fx5-1TLDBiEDg

创作场景

DeepSeek V4 重磅开源！首次打通华为 Ascend，也没丢掉英伟达，百万上下文夺回国产模型话语权