写点什么

DeepSeek V3.1 发布,采用了混合推理架构

作者:Daniel Dominguez

  • 2025-09-04
    北京
  • 本文字数:999 字

    阅读完需:约 3 分钟

大小:519.58K时长:02:57
DeepSeek V3.1发布,采用了混合推理架构

DeepSeek发布V3.1版本,引入了一种混合架构,在一个系统中提供了思考和非思考模式。思考模式,即DeepSeek-V3.1-Think,相较于之前的DeepSeek-R1-0528模型,它在保持类似的响应质量的同时提供了更快的推理速度。此外,通过一系列精心设计的后训练优化调整,改进了工具使用和多步骤任务执行。


DeepSeek-V3.1的开发以 DeepSeek-V3-Base 检查点为基础,采用了两阶段上下文扩展策略。第一阶段将上下文窗口扩展到 32000 个词元,使用了包含 6300 亿个词元的训练数据。第二阶段进一步将上下文扩展到 128000 个词元,增加了 2090 亿个训练词元。这种策略显著提升了模型处理长输入序列的能力,远超早期版本。


V3.1 的训练还采用了FP8 UE8M0精度,用于权重和激活。这种精度格式不仅提升了计算效率,还与微缩放技术完美兼容,从而使得大规模模型的部署变得更加高效。从规模来看,完整的 DeepSeek-V3.1 模型包含 6710 亿个总参数,每个词元大约可激活 370 亿个参数,同时支持扩展至 128000 个词元上下文长度。


在开源编码和推理基准测试中,DeepSeek V3.1 的排名接近榜首。在社区测试环节,它在Aider基准测试中得分 71.6%,超过了Claude 4,并与GPT-4接近,而运行完整套件的计算成本约为 1 美元,相较于其他模型动辄数十美元,其性价比优势不言而喻。


Reddit 和 X 上的讨论呈现出对 DeepSeek V3.1 的多样化评价。一些开发人员将其描述为 GPT 或 Claude 的高性价比替代品,指出其在编码和推理基准测试中以极低的成本取得了极佳的效果。用户badgerbadgerbadgerWI评论道:

DeepSeek 的成本和性能比令人难以置信。我们现在在本地部署运行它来进行代码审查工作。


AI 工程师Prince Ramoliya分享道:

混合推理真是太棒了。拥有一个可以在深度思考和快速响应之间切换的模型,这感觉像是实用 AI 的未来。


DeepSeek 模型可通过多个平台获取,包括Hugging FaceOpenRouterReplicate。它还附带了官方的API文档更新说明,详细描述了技术细节和性能基准。开发人员可以尝试标准响应生成和推理增强输出,并根据任务需求选择合适的模式。


与 DeepSeek-V3 相比,新版本旨在平衡效率与推理能力。通过整合工具使用和结构化的后训练优化,DeepSeek-V3.1 力图攻克多步骤推理任务所面临的难题,同时确保推理速度契合生产环境的实用需求。混合架构设计是融合显式推理之长与传统自回归生成高效吞吐量优势的匠心之举。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


原文链接:

https://www.infoq.com/news/2025/09/deepseek-v31-hybrid/

2025-09-04 11:0010235

评论

发布
暂无评论

干货满满:多人语音聊天室源码开发解析

山东布谷网络科技

源码剖析

SpringBoot使用spring.config.import多种方式导入配置文件

java易二三

Java spring 程序员 Spring Boot 计算机

3-6作业

家有两宝

架构实战营

ABAQUS正版授权软件怎么下载?达索中国代理商思茂信息

思茂信息

abaqus abaqus软件 有限元仿真技术 有限元分析 结构仿真

透彻理解 Axios Blob 的使用与优化

Apifox

性能优化 后端 HTTP API web开发

前端合成海报并保存到本地

南城FE

JavaScript 小程序 前端 图片合成

深入理解 Flutter 图片加载原理 | 京东云技术团队

京东科技开发者

flutter 移动开发 图片懒加载 企业号 8 月 PK 榜

直播平台源码优质平台技术:并行处理与线程优化的探索与实践

山东布谷科技

软件开发 源码搭建 直播平台源码 并行处理 线程优化

分享实录 | 将 NGINX 打造成功能强大的 API 网关(下)

NGINX开源社区

nginx api 网关 后端服务

HertzBeat 集群版开源,易用友好的开源实时监控系统!

TanCloud探云

Java GitHub 开源 程序员 监控产品

利用CI机制管控jar依赖树 | 京东云技术团队

京东科技开发者

ci CI/CD jar包 企业号 8 月 PK 榜

电商小程序微服务架构

艾瑾行

架构训练营

jstat命令总结

java易二三

Java 程序员 JVM 计算机 科技

Serverless 应用托管助力企业加速创新

Serverless Devs

阿里云 Serverless 云原生 应用引擎

软件测试丨Chrome 115之后的版本,如何更新driver?

测试人

chrome 程序员 软件测试 自动化测试 chromedriver

火山引擎ByteHouse:一套方案,让OLAP引擎在精准投放场景更高效

字节跳动数据平台

大数据 云原生 Clickhouse 企业号 8 月 PK 榜

开源XL-LightHouse与Flink、ClickHouse之类技术相比有什么优势

feng

大数据 flink Clickhouse 流式计算 流式统计

【5分钟背八股】ZooKeeper和Reids做分布式锁的区别?

java易二三

redis zookeeper 程序员 计算机 八股文

小白都会的数据可视化大屏搭建,速来学习

华为云开发者联盟

开发 开发工具 华为云 华为云开发者联盟 企业号 8 月 PK 榜

Nacos服务整合SpringBoot框架技术

java易二三

Java 程序员 Spring Boot 计算机 科技

十问Huawei Cloud Toolkit:开发插件如何提升云上开发效能

华为云开发者联盟

ide 开发 华为云 华为云开发者联盟 企业号 8 月 PK 榜

LED小间距屏幕的COB封装技术应用和优势

Dylan

技术 封装 PCB LED显示屏

OpenSSL 3.0.0 设计(三)|FIPS 模块

铜锁开源密码库

算法 信息安全 密码学 openssl 铜锁

低代码实现探索(五十九)SAP底层技术研究

零道云-混合式低代码平台

chatglm2-6b模型在9n-triton中部署并集成至langchain实践 | 京东云技术团队

京东科技开发者

人工智能 #LangChain langchain 企业号 8 月 PK 榜 ChatGLM2-6B

9-7毕业设计,秒杀架构

家有两宝

架构实战营

RPA+智能问答实现微信端智能客服 | 京东云技术团队

京东科技开发者

微信 RPA 智能客服 企业号 8 月 PK 榜

DeepSeek V3.1发布,采用了混合推理架构_架构_InfoQ精选文章