2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

阿里深夜发布 QwQ-32B 模型:仅 1/20 参数就可媲美 DeepSeek R1,还能在苹果笔记本运行

  • 2025-03-06
    北京
  • 本文字数:813 字

    阅读完需:约 3 分钟

大小:438.27K时长:02:29
阿里深夜发布 QwQ-32B 模型:仅1/20参数就可媲美DeepSeek R1,还能在苹果笔记本运行

刚刚,阿里 Qwen 团队发布了最新的 QwQ-32B 推理模型。其参数规模为 320 亿,但在推理能力上可媲美 DeepSeek-R1——后者总参数量高达 6710 亿,其中激活参数为 370 亿。


 

阿里 Qwen 团队近日对 QwQ-32B 进行了一系列基准测试,全面评估其在数学推理、代码生成及一般问题解决能力方面的表现。测试结果显示,QwQ-32B 在多个关键指标上展现出强劲竞争力,并与当前领先的多个模型——包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始 DeepSeek-R1——进行了对比分析。

 

Hugging Face 和 ModelScope 的介绍页面显示,QwQ-32B 是一个密集模型,未采用 MoE 结构,并支持 131k 的上下文长度。

 

有网友分析指出,由于 DeepSeek 模型规模高达 6710 亿参数,推理部署难度较大。要高效运行 DeepSeek,至少需要 22 台服务器,每台配备 8 张 GPU,这对企业来说是一个不小的成本和运维挑战。相比之下,QwQ-32B 仅有 320 亿参数,意味着它几乎可以在单机上高效运行,大大降低了推理部署的门槛。

 

“当然,许多企业在推理部署时会将预填充(Prefill)和解码(Decoding)阶段分开运行,因为它们的推理需求不同。但无论如何,QwQ-32B 避免了超大规模模型带来的复杂管道调度和专家并行(Expert Parallelism),简化了推理部署流程。”


 

还有网友调侃道:“关键问题是,Qwen QwQ-32B 能‘做空’英伟达(NVIDIA)吗?”


 

据阿里 Qwen 团队介绍,这是他们探索了强化学习(RL)扩展的成果,RL 训练可持续提升模型性能,特别是在数学和代码生成方面。同时,他们观察到,持续优化 RL 训练能使中等规模模型在性能上媲美超大规模 MoE 模型。

 

此外,QwQ-32B 还集成了智能体相关能力,能够在使用工具的同时,根据环境反馈动态调整推理过程,使推理更具批判性与适应性。这一技术进展不仅进一步验证了 RL 的变革潜力,也为通用人工智能(AGI)的发展提供了新的思路。

 

QwQ-32B 以 Apache 2.0 许可证开源,用户可通过 Qwen Chat 直接进行体验。

2025-03-06 11:3111278

评论

发布
暂无评论

大咖眼中的AI开源 | 张建:图神经网络和DGL的实际应用

亚马逊云科技 (Amazon Web Services)

网络

开源走向世界(下):从数据库技术演进看开源力量丨BDTC 2021

PingCAP

一个基于PoS共识算法的区块链实例解析(升级版)

恒生LIGHT云社区

区块链 共识算法 PoS

Amazon EC2 串行控制台——化繁为简,高效解决网络问题

亚马逊云科技 (Amazon Web Services)

网络

如何突破职业瓶颈

FunTester

Go 性能测试 测试框架 FunTester 职业瓶颈

架构师实战营3期毕业设计

小饭🍎

react源码解析19.手写迷你版react

buchila11

React

react源码解析20.总结&第一章的面试题解答

buchila11

React

模块六作业

Geek_e6f7f6

架构训练营

AWS Command Line Interface 使用S3入门

阿呆

AWS S3

站在面试官角度,看求职与内卷

程序人生

Hibernate 如何生成 JPA 的 Metamodel

HoneyMoose

如何提高后台服务应用问题的排查效率?日志 VS 远程调试

汪子熙

node.js 后台开发 1月月更

JavaScript 12种设计模式汇总

编程江湖

JavaScript

使用亚马逊云科技安全服务防御、检测和响应 Log4j 漏洞

亚马逊云科技 (Amazon Web Services)

网络

为什么要把系统拆分成分布式的?为啥要用dubbo?

JavaEdge

1月月更

读《底层逻辑》

wood

300天创作

TCP socket和web socket的区别

汪子熙

前端 node,js 1月月更

大咖眼中的AI开源|王敏捷:深图在人工智能中的探索和研究

亚马逊云科技 (Amazon Web Services)

网络

Java 常用类大讲解!3️⃣(手写 API、源码必备)

XiaoLin_Java

Java 数组 1月月更

用复杂的方式学会数组(Python实现动态数组)

宇宙之一粟

Python 数据结构 数组 1月月更

面试突击15:说一下HashMap底层实现?及元素添加流程?

王磊

尚硅谷《MySQL高级特性篇》教程发布

@零度

MySQL

IntelliJ IDEA 的 Metamodel 配置

HoneyMoose

1月月更|推荐学Java——第一个MyBatis程序

逆锋起笔

Java mybatis SSM框架 MyBatis标签 mybatis配置

Kafka的生产集群部署

编程江湖

kafka

城墙上的“云镜派”,如何守护云上资产安全?

脑极体

ReactNative进阶(十四):初探 Gradle

No Silver Bullet

Gradle React Native 1月月更

如何优雅的遍历Mycat分库表

编程江湖

mycat

元宇宙,以区块链为核心的Web3.0数字生态

CECBC

Magic UI四子围城,2022折叠屏灵魂觉醒

脑极体

阿里深夜发布 QwQ-32B 模型:仅1/20参数就可媲美DeepSeek R1,还能在苹果笔记本运行_生成式 AI_Tina_InfoQ精选文章