写点什么

DeepSeek V3.1 发布,采用了混合推理架构

作者:Daniel Dominguez

  • 2025-09-04
    北京
  • 本文字数:999 字

    阅读完需:约 3 分钟

大小:519.58K时长:02:57
DeepSeek V3.1发布,采用了混合推理架构

DeepSeek发布V3.1版本,引入了一种混合架构,在一个系统中提供了思考和非思考模式。思考模式,即DeepSeek-V3.1-Think,相较于之前的DeepSeek-R1-0528模型,它在保持类似的响应质量的同时提供了更快的推理速度。此外,通过一系列精心设计的后训练优化调整,改进了工具使用和多步骤任务执行。


DeepSeek-V3.1的开发以 DeepSeek-V3-Base 检查点为基础,采用了两阶段上下文扩展策略。第一阶段将上下文窗口扩展到 32000 个词元,使用了包含 6300 亿个词元的训练数据。第二阶段进一步将上下文扩展到 128000 个词元,增加了 2090 亿个训练词元。这种策略显著提升了模型处理长输入序列的能力,远超早期版本。


V3.1 的训练还采用了FP8 UE8M0精度,用于权重和激活。这种精度格式不仅提升了计算效率,还与微缩放技术完美兼容,从而使得大规模模型的部署变得更加高效。从规模来看,完整的 DeepSeek-V3.1 模型包含 6710 亿个总参数,每个词元大约可激活 370 亿个参数,同时支持扩展至 128000 个词元上下文长度。


在开源编码和推理基准测试中,DeepSeek V3.1 的排名接近榜首。在社区测试环节,它在Aider基准测试中得分 71.6%,超过了Claude 4,并与GPT-4接近,而运行完整套件的计算成本约为 1 美元,相较于其他模型动辄数十美元,其性价比优势不言而喻。


Reddit 和 X 上的讨论呈现出对 DeepSeek V3.1 的多样化评价。一些开发人员将其描述为 GPT 或 Claude 的高性价比替代品,指出其在编码和推理基准测试中以极低的成本取得了极佳的效果。用户badgerbadgerbadgerWI评论道:

DeepSeek 的成本和性能比令人难以置信。我们现在在本地部署运行它来进行代码审查工作。


AI 工程师Prince Ramoliya分享道:

混合推理真是太棒了。拥有一个可以在深度思考和快速响应之间切换的模型,这感觉像是实用 AI 的未来。


DeepSeek 模型可通过多个平台获取,包括Hugging FaceOpenRouterReplicate。它还附带了官方的API文档更新说明,详细描述了技术细节和性能基准。开发人员可以尝试标准响应生成和推理增强输出,并根据任务需求选择合适的模式。


与 DeepSeek-V3 相比,新版本旨在平衡效率与推理能力。通过整合工具使用和结构化的后训练优化,DeepSeek-V3.1 力图攻克多步骤推理任务所面临的难题,同时确保推理速度契合生产环境的实用需求。混合架构设计是融合显式推理之长与传统自回归生成高效吞吐量优势的匠心之举。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


原文链接:

https://www.infoq.com/news/2025/09/deepseek-v31-hybrid/

2025-09-04 11:0010950

评论

发布
暂无评论

软件测试/测试开发丨接口学习笔记-session、cookie、token的区别

测试人

软件测试 测试开发

程序员如何高效学习技术?

伤感汤姆布利柏

开源 程序员 低代码 Java技术提升程序员

专家观点∣数字化场景应用助力铁合金企业增产提效

用友BIP

冶金 提质增效

GitOps实践指南:GitOps能为我们带来什么?

阿里云大数据AI技术

如何判断Linux服务器是否被入侵了,该怎么对服务器进行安全加固

德迅云安全杨德俊

Linux 服务器安全 入侵检测

集成学习方法——随机森林

小齐写代码

库克透露苹果已有接班人计划,或从这四人中诞生;谷歌创始人亲自给 Gemini 写代码丨 RTE 开发者日报 Vol.114

声网

2023-12-27:用go语言,店铺数量n,编号1~n, 人的数量m,编号1~m, 每个人有自己投票的店铺p,和改投1号店的报价x。 返回想让1号店铺成为人气最高的店,至少花多少钱? 1 <= p,

福大大架构师每日一题

福大大架构师每日一题

基于深度学习的工业缺陷检测详解——从0到1

月球背面

人工智能 缺陷检测 工业视觉 #技术人的2023总结

一文详解kube-apiserver认证鉴权能力

华为云开发者联盟

云原生 后端 华为云 华为云开发者联盟

海外云手机——跨境电商必备神器

Ogcloud

云服务 跨境电商

为什么要运营海外社媒?海外云手机能发挥什么作用?

Ogcloud

短视频 社交媒体

密切关注2024年及以后的加密货币业务趋势

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

即时通讯技术文集(第29期):IM开发技术合集(Part2) [共18篇]

JackJiang

网络编程 即时通讯 IM

云图说|有了这2招必杀技,你的主机“身陷重围”都不怕!

华为云开发者联盟

云计算 华为云 主机安全 华为云开发者联盟 华为云HSS

DeepSeek V3.1发布,采用了混合推理架构_架构_InfoQ精选文章