写点什么

DeepSeek V3.1 发布,采用了混合推理架构

作者:Daniel Dominguez

  • 2025-09-04
    北京
  • 本文字数:999 字

    阅读完需:约 3 分钟

大小:519.58K时长:02:57
DeepSeek V3.1发布,采用了混合推理架构

DeepSeek发布V3.1版本,引入了一种混合架构,在一个系统中提供了思考和非思考模式。思考模式,即DeepSeek-V3.1-Think,相较于之前的DeepSeek-R1-0528模型,它在保持类似的响应质量的同时提供了更快的推理速度。此外,通过一系列精心设计的后训练优化调整,改进了工具使用和多步骤任务执行。


DeepSeek-V3.1的开发以 DeepSeek-V3-Base 检查点为基础,采用了两阶段上下文扩展策略。第一阶段将上下文窗口扩展到 32000 个词元,使用了包含 6300 亿个词元的训练数据。第二阶段进一步将上下文扩展到 128000 个词元,增加了 2090 亿个训练词元。这种策略显著提升了模型处理长输入序列的能力,远超早期版本。


V3.1 的训练还采用了FP8 UE8M0精度,用于权重和激活。这种精度格式不仅提升了计算效率,还与微缩放技术完美兼容,从而使得大规模模型的部署变得更加高效。从规模来看,完整的 DeepSeek-V3.1 模型包含 6710 亿个总参数,每个词元大约可激活 370 亿个参数,同时支持扩展至 128000 个词元上下文长度。


在开源编码和推理基准测试中,DeepSeek V3.1 的排名接近榜首。在社区测试环节,它在Aider基准测试中得分 71.6%,超过了Claude 4,并与GPT-4接近,而运行完整套件的计算成本约为 1 美元,相较于其他模型动辄数十美元,其性价比优势不言而喻。


Reddit 和 X 上的讨论呈现出对 DeepSeek V3.1 的多样化评价。一些开发人员将其描述为 GPT 或 Claude 的高性价比替代品,指出其在编码和推理基准测试中以极低的成本取得了极佳的效果。用户badgerbadgerbadgerWI评论道:

DeepSeek 的成本和性能比令人难以置信。我们现在在本地部署运行它来进行代码审查工作。


AI 工程师Prince Ramoliya分享道:

混合推理真是太棒了。拥有一个可以在深度思考和快速响应之间切换的模型,这感觉像是实用 AI 的未来。


DeepSeek 模型可通过多个平台获取,包括Hugging FaceOpenRouterReplicate。它还附带了官方的API文档更新说明,详细描述了技术细节和性能基准。开发人员可以尝试标准响应生成和推理增强输出,并根据任务需求选择合适的模式。


与 DeepSeek-V3 相比,新版本旨在平衡效率与推理能力。通过整合工具使用和结构化的后训练优化,DeepSeek-V3.1 力图攻克多步骤推理任务所面临的难题,同时确保推理速度契合生产环境的实用需求。混合架构设计是融合显式推理之长与传统自回归生成高效吞吐量优势的匠心之举。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


原文链接:

https://www.infoq.com/news/2025/09/deepseek-v31-hybrid/

2025-09-04 11:002

评论

发布
暂无评论

蔚来汽车:拥抱TiDB,实现数据库性能与稳定性的飞跃

TiDB 社区干货传送门

社区活动

文献解读-液体活检-第十九期|《不同 DNA 测序平台的标准化比较》

INSVAST

基因数据分析 生信服务 液体活检

解密星辰大模型·软件工厂 软件开发迈入智能化全流程新阶段

科技热闻

仙侠天花板,圆你土豪梦,上古传说手游详细图文架设教程

echeverra

上古传说

快手可图大模型Kolors全面开源——一个更懂中文的文生图大模型

快手技术

开源 大模型 文生图 企业号2024年7月PK榜

京东JD商品sku信息API返回值解读:商品规格数据与电商风险管理

技术冰糖葫芦

API 安全 API 文档 API 开发

全球最大职业社交平台 LinkedIn 为何将 TiDB 应用于大规模服务系统

TiDB 社区干货传送门

社区活动

MySQL中为什么要使用索引合并(Index Merge)?

华为云开发者联盟

MySQL 数据库 华为云 华为云开发者联盟 企业号2024年7月PK榜

教程:通过 API 接口实现代码的自动生成

Apifox

程序员 前端 后端 代码 API

全渠道AI智能商品管理软件平台 助力零售品牌占领技术高地

第七在线

Beyond the scalability — 回顾 PingCAP 刘奇在日本用户大会上的部分演讲语录

TiDB 社区干货传送门

社区活动

解读代码检查规则语言CodeNavi的表达式节点和属性

华为云开发者联盟

软件开发 华为云 华为云开发者联盟 代码检查 企业号2024年7月PK榜

第三届 TiDB 社区七夕为爱挑战赛正式开启,等你来挑战!把 TiDBer 专属七夕浪漫带给心爱的TA!

TiDB 社区干货传送门

Microsoft Word 2019 for mac (word mac)v16.78.3中文激活版

Rose

飞舞在化工企业的AI大模型梦想

白洞计划

AI

阿里巴巴搜索API助力电商精准营销:返回值的力量

技术冰糖葫芦

API 安全 API 文档 API 开发 API 协议

Infuse 强大的iOS和tvOS视频播放器应用程序

Rose

ATC 2024 | 快手开源大模型长序列训练加速技术,性能大幅超越 SOTA 方案

快手技术

开源 #大模型

Navicat for MySQL Mac(数据库管理开发工具)v16.3.4汉化版

Rose

闯荡西游之路,续写经典传奇,大话西游图文架设教程

echeverra

大话西游

代码将由大模型生成 解密中国电信“星辰大模型·软件工厂”

科技热闻

记一次TIDB开启TLS失败导致PD扩容失败案例

TiDB 社区干货传送门

实践案例 安装 & 部署

DeepSeek V3.1发布,采用了混合推理架构_架构_InfoQ精选文章