写点什么

阿里深夜发布 QwQ-32B 模型:仅 1/20 参数就可媲美 DeepSeek R1,还能在苹果笔记本运行

  • 2025-03-06
    北京
  • 本文字数:813 字

    阅读完需:约 3 分钟

大小:438.27K时长:02:29
阿里深夜发布 QwQ-32B 模型:仅1/20参数就可媲美DeepSeek R1,还能在苹果笔记本运行

刚刚,阿里 Qwen 团队发布了最新的 QwQ-32B 推理模型。其参数规模为 320 亿,但在推理能力上可媲美 DeepSeek-R1——后者总参数量高达 6710 亿,其中激活参数为 370 亿。


 

阿里 Qwen 团队近日对 QwQ-32B 进行了一系列基准测试,全面评估其在数学推理、代码生成及一般问题解决能力方面的表现。测试结果显示,QwQ-32B 在多个关键指标上展现出强劲竞争力,并与当前领先的多个模型——包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始 DeepSeek-R1——进行了对比分析。

 

Hugging Face 和 ModelScope 的介绍页面显示,QwQ-32B 是一个密集模型,未采用 MoE 结构,并支持 131k 的上下文长度。

 

有网友分析指出,由于 DeepSeek 模型规模高达 6710 亿参数,推理部署难度较大。要高效运行 DeepSeek,至少需要 22 台服务器,每台配备 8 张 GPU,这对企业来说是一个不小的成本和运维挑战。相比之下,QwQ-32B 仅有 320 亿参数,意味着它几乎可以在单机上高效运行,大大降低了推理部署的门槛。

 

“当然,许多企业在推理部署时会将预填充(Prefill)和解码(Decoding)阶段分开运行,因为它们的推理需求不同。但无论如何,QwQ-32B 避免了超大规模模型带来的复杂管道调度和专家并行(Expert Parallelism),简化了推理部署流程。”


 

还有网友调侃道:“关键问题是,Qwen QwQ-32B 能‘做空’英伟达(NVIDIA)吗?”


 

据阿里 Qwen 团队介绍,这是他们探索了强化学习(RL)扩展的成果,RL 训练可持续提升模型性能,特别是在数学和代码生成方面。同时,他们观察到,持续优化 RL 训练能使中等规模模型在性能上媲美超大规模 MoE 模型。

 

此外,QwQ-32B 还集成了智能体相关能力,能够在使用工具的同时,根据环境反馈动态调整推理过程,使推理更具批判性与适应性。这一技术进展不仅进一步验证了 RL 的变革潜力,也为通用人工智能(AGI)的发展提供了新的思路。

 

QwQ-32B 以 Apache 2.0 许可证开源,用户可通过 Qwen Chat 直接进行体验。

2025-03-06 11:3111046

评论

发布
暂无评论

上周我面了个三年 Javaer,这几个问题都没答出来

yes

面试 RPC HTTP

Python进阶——如何正确使用魔法方法?(下)

Kaito

Python

一位Java程序员在上家公司CRUD了3年,金九银十想要跳槽面试却屡屡碰壁,感觉很迷茫!网友:这是你安逸太久技术能力跟不上了!

Java架构之路

Java 程序员 架构 面试 编程语言

架构设计:高并发读取,高并发写入,并发设计规划落地方案思考

互联网应用架构

高并发读,高并发写

架构师训练营第 1 期第 10 周作业

业哥

一次浪费时间的面试

escray

程序员 面试 面经

第十周作业

Geek_4c1353

极客大学架构师训练营

OAuth 2.0授权框架详解

程序那些事

OAuth 2.0 程序那些事 Oauth 授权框架 安全框架

训练营第五周作业

爱码士

训练营

前端如何实现一键截图功能?

徐小夕

Java 大前端 React

字节面试数据结构与算法:B+树的删除和插入,不够详细你打我

小Q

Java MySQL 学习 面试 算法

训练营第5周学习总结

爱码士

训练营

《码出高效:Java开发手册》,每一位想要成为优秀开发工程师的程序员必须要看的一本小册!

Java架构之路

Java 程序员 架构 面试 编程语言

《华为数据之道》读书笔记:序言

方志

数据中台 数字化转型 数据治理

JVM Metaspace内存溢出排查与总结

Java老k

Java OOM 内存溢出 metaspace

高速二维码报警定位系统开发,智能报警系统

13530558032

怎么做好一场分享或者培训

fq

贞炸了!上线之后,消息收不到了!

楼下小黑哥

Java RocketMQ MQ

五年Java开发经验,裸辞准备半月面试阿里,阿里巴巴却“不讲武德”,居然面了我7轮,历经千辛万苦终于斩获P7及Offer

Java架构之路

Java 程序员 架构 面试 编程语言

奉劝各位Java工程师都要学习这份阿里内部绝密《百亿级并发系统设计》实战教程,大厂面试官可“不讲武德”!

Java架构之路

Java 程序员 架构 面试 编程语言

乘上这艘“智能体”之舟,即刻前往智慧未来

脑极体

MySQL选错索引导致的线上慢查询事故

Zhendong

Java MySQL

Java踩坑记系列之线程池

Java老k

Java 线程池

2021年全球公有云终端用户支出将增长18% ;EMNLP 2020最佳论文:无声语音的数字发声

京东科技开发者

程序人生

DocView 现在支持自定义 Markdown 模版了!

程序员小航

markdown IDEA idea插件 文档生成

“新鲜出炉”阿里面试终极指南V3.0,符合一线大厂面试点需求

小Q

Java 学习 编程 架构 面试

新图灵测试背后,智能交互点燃了哪些产业可能性?

脑极体

甲方日常 55

句子

工作 随笔杂谈 日常

贼好用,冰河开源了这款精准定时任务和延时队列框架!!

冰河

redis 中间件 消息队列 延时队列 Zset

区块链赋能医疗行业,区块链医疗应用场景开发

13530558032

《华为数据之道》读书笔记:第1章 数据驱动的企业数字化转型

方志

数据中台 数据湖 数据治理

阿里深夜发布 QwQ-32B 模型:仅1/20参数就可媲美DeepSeek R1,还能在苹果笔记本运行_生成式 AI_Tina_InfoQ精选文章