10 月 23 - 25 日,QCon 上海站即将召开,9折优惠最后2天 了解详情
写点什么

节前 DeepSeek 又突击了!大方开源 V3.2 实验版,API 价格降低 50%+

  • 2025-09-29
    北京
  • 本文字数:558 字

    阅读完需:约 2 分钟

大小:259.08K时长:01:28
节前DeepSeek又突击了!大方开源V3.2实验版,API 价格降低 50%+

刚刚,DeepSeek 突然宣布 DeepSeek-V3.2-Exp 正式发布,这是其模型的实验版本。现已在 App、Web 和 API 上线, API 价格降低了 50%+。

 

模型: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp 

技术报告: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf 

 

 

作为迈向下一代架构的过渡,V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek 稀疏注意力机制(DSA)——一种稀疏注意力机制,旨在探索和验证在长上下文场景下训练和推理效率的优化。此外,SGLang 是 DeepSeek-V3.2 的官方推理框架,具有优化的稀疏注意力内核、动态 KV 缓存,并能无缝扩展到 128K 个 token。

 


据介绍,该实验版本代表了 DeepSeek 团队对更高效的变压器架构的持续研究,特别注重提高处理扩展文本序列时的计算效率。

 

 

  • DSA 实现了以最小的输出质量影响实现细粒度稀疏注意力,提升长上下文性能并降低计算成本。

  • 为了严格评估引入稀疏注意力的影响,DeepSeek-V3.2-Exp 的训练配置与 V3.1-Terminus 保持一致。在各个领域的公共基准测试中,DeepSeek-V3.2-Exp 表现出与 V3.1-Terminus 相当的性能。

 


其实早在模型发布之前,就有网友猜测,DeepSeek 或者谷歌可能会在十一国庆节期间有新动作,并猜测 DeepSeek 可能会放出 V4,这次不用网友们猜了,他们在节前放出了新模型让大家踏实过节去吧!

2025-09-29 20:301

评论

发布
暂无评论

普元CTO焦烈焱:成长之路务必重视工程能力

EAWorld

程序员

Java + opencv实现视频人脸检测

张音乐

OpenCV 人脸识别 视频

算法:求两个单向链表的最早公共交点

程序员架构进阶

算法 链表 28天写作 3月日更 算法解析

缓存不一致、缓存雪崩、缓存击穿、缓存穿透

escray

redis 学习 极客时间 3月日更 Redis 核心技术与实战

Centos7下Docker安装&配置&镜像加速

happlyfox

学习 ,docker 3月日更

双非怎么了

我是程序员小贱

3月日更

PS 进行隐藏图制作

空城机

PhotoShop ps 视觉处理 视觉 隐藏图

FFmpeg应用篇

Changing Lin

3月日更

如何快速掌握 Kubernetes 网络

倪朋飞

学习方法 Kubernetes 云原生

跨越数据的“叹息墙”:华为下一代数据湖与HPDA时代

脑极体

关于Vue权限路由思考

程序员海军

Vue 大前端 vue-router 权限认证 按钮权限

推动产业数字化 提升服务实体经济质效

CECBC

科技

高性能公链能为 DeFi 带来什么?

CECBC

区块链

“数字足迹”怕暴露,数字人民币如何守护你我隐私安全?

CECBC

数字货币

【Axure9百例】47.CSDN的列表样式

zhuchuanming

原型设计 Axure 交互原型

满满干货|支付宝美女面试官的贴心锦囊

Lily

聊聊集群、分布式和微服务之间的异同点

架构精进之路

分布式 微服务 集群 3月日更

工作三年,小胖不知道 MySQL 日志是干嘛的。真的菜

一个优秀的废人

MySQL mysql事务 MySQL日志

工作四年,分享50个让你代码更好的小建议

比伯

Java 程序员 架构 程序人生 计算机

局域网服务器访问外网方案

程序员与厨子

Linux 网络 路由表

零信任提升组织的数字安全性

龙归科技

网络 数字时代 零信任

《MySQL》系列 - select 查询语句到底是怎么执行的?

一个优秀的废人

MySQL 数据库 原理 sql查询

记一次生产环境大面积404问题!

冰河

nginx 网关

go + ffmpeg + goav 实现拉流解码器

张音乐

音视频 ffmpeg Go 语言 goav

Java反射简析

Langer

Java java反射

Java + opencv 实现图片人脸检测

张音乐

Java AI OpenCV ffmpeg 人脸识别

记上周双休日的加班

sadhu

加班

OKR实践中的痛点(4):再谈老板的KR我的O

大叔杨

OKR 敏捷 绩效 敏捷绩效

如何激励员工?—— 马斯洛需求理论

石云升

激励 28天写作 职场经验 管理经验 3月日更

Redis - 主从模式

insight

redis 3月日更

从新手到专家:如何设计一套亿级消息量的分布式IM系统

JackJiang

架构设计 即时通讯 IM

节前DeepSeek又突击了!大方开源V3.2实验版,API 价格降低 50%+_AI&大模型_华卫_InfoQ精选文章