DeepSeek 研究员：Speciale证明强化学习可持续扩展！谷歌AI研究员来划技术重点

昨晚，DeppSeek 同时发布了两个正式版模型：DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。发布即火。

新模型技术报告已同步发布：

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf

“如果说 Gemini-3 证明了预训练可以持续扩展，那么 DeepSeek-V3.2-Speciale 则证明了“超长上下文下的强化学习同样可以持续扩展。我们花了一年时间把 DeepSeek-V3 推到极限，最大的体会是：后训练阶段的瓶颈，不是靠等一个更好的基座模型来解决，而是靠不断打磨方法和数据本身。”DeppSeek 研究员 Zhibin Gou 在 x 上说道，“持续扩展模型、数据、上下文和强化学习。不要让‘遇到瓶颈’之类的说法阻碍你前进。”

新模型的能力不必多说，DeepSeek 写得很清楚：

DeepSeek-V3.2：以平衡推理能力与输出长度为目标，适配日常问答、通用 Agent 任务等场景。在推理类 Benchmark 测试中达到 GPT-5 水平，仅略低于 Gemini-3.0-Pro，且输出长度大幅短于 Kimi-K2-Thinking，显著降低计算开销与等待时间。
DeepSeek-V3.2-Speciale：作为长思考增强版，融合 DeepSeek-Math-V2 的定理证明能力，聚焦极致推理性能探索。在主流推理基准测试中媲美 Gemini-3.0-Pro，斩获 IMO 2025、CMO 2025、ICPC World Finals 2025、IOI 2025 四大国际赛事金牌（ICPC、IOI 成绩分别达人类选手第二、十名水平）。该版本仅供研究使用，Tokens 消耗更高，不支持工具调用，未针对日常对话优化。

DeepSeek-V3.2 还是首个将思考融入工具使用的模型，同时支持思考模式与非思考模式的工具调用：通过大规模 Agent 训练数据合成方法（1800 + 环境、85,000 + 复杂指令）提升泛化能力；其次，在 ToolUse 相关评测集（T2-Bench、MCP-Universe 等）中表现亮眼，达到当前开源模型顶尖水平，大幅缩小与闭源模型的差距，且未针对测试集工具特殊训练，真实场景适应性更强。

发布后，DeepSeek 论文迅速引发关注。

技术上，谷歌 Deepmind Susan Zhang 总结了两个模型的亮点：

DeepSeek 通过“热启动”（独立初始化 + 独立优化动态），并在约 1 万亿 token 的训练过程中逐步适配，把注意力机制的复杂度从二次方降到了近似线性。
在预填充和解码阶段使用了不同的注意力模式

Susan 称它们在稳定 RL 训练方面也做了不少创新（远超那个号称“开放贝尔实验室”在博客里写的那些👀）：

1）无偏的 KL 估计，针对不同领域使用不同的 KL 回归(!)

2）屏蔽显著负向的优势序列（adv sequences），以免“带偏”模型

3）解决 MoE 在不同框架之间训练/推理不一致的问题，具体包括：保留专家路由、保留 top-p 采样掩码

最值得关注的，可能是他们如何把 “Agent 能力”规模化：

1）更强的上下文管理能力，以及在此基础上的进一步优化

2）多样化的 Agent 配置（包括不同的 checkpoint、系统提示词）

3）规模化地创建任务/环境，最终产出了成千上万条由 “环境、工具、任务、验证器>”构成的组合。

“就连他们在“局限性”一节的表述，都有点扮猪吃老虎的味道：他们还会继续扩大预训练规模、更加专注于 token 效率、会继续追逐最前沿能力。”

“更厉害的是，他们选在 NeurIPS 开幕当天凌晨，用 ChatGPT 式的发布节奏亮出 DeepSeek Speciale，这是冲着那些只会重新包装别人成果的欧洲玩家来的 👀事实证明，最高级的‘光环收割’，永远是真刀真枪把成果开源给你看。🫡”Susan 评价道。

创作场景

DeepSeek 研究员：Speciale 证明强化学习可持续扩展！谷歌 AI 研究员来划技术重点