写点什么

阿里深夜发布 QwQ-32B 模型:仅 1/20 参数就可媲美 DeepSeek R1,还能在苹果笔记本运行

  • 2025-03-06
    北京
  • 本文字数:813 字

    阅读完需:约 3 分钟

大小:438.27K时长:02:29
阿里深夜发布 QwQ-32B 模型:仅1/20参数就可媲美DeepSeek R1,还能在苹果笔记本运行

刚刚,阿里 Qwen 团队发布了最新的 QwQ-32B 推理模型。其参数规模为 320 亿,但在推理能力上可媲美 DeepSeek-R1——后者总参数量高达 6710 亿,其中激活参数为 370 亿。


 

阿里 Qwen 团队近日对 QwQ-32B 进行了一系列基准测试,全面评估其在数学推理、代码生成及一般问题解决能力方面的表现。测试结果显示,QwQ-32B 在多个关键指标上展现出强劲竞争力,并与当前领先的多个模型——包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始 DeepSeek-R1——进行了对比分析。

 

Hugging Face 和 ModelScope 的介绍页面显示,QwQ-32B 是一个密集模型,未采用 MoE 结构,并支持 131k 的上下文长度。

 

有网友分析指出,由于 DeepSeek 模型规模高达 6710 亿参数,推理部署难度较大。要高效运行 DeepSeek,至少需要 22 台服务器,每台配备 8 张 GPU,这对企业来说是一个不小的成本和运维挑战。相比之下,QwQ-32B 仅有 320 亿参数,意味着它几乎可以在单机上高效运行,大大降低了推理部署的门槛。

 

“当然,许多企业在推理部署时会将预填充(Prefill)和解码(Decoding)阶段分开运行,因为它们的推理需求不同。但无论如何,QwQ-32B 避免了超大规模模型带来的复杂管道调度和专家并行(Expert Parallelism),简化了推理部署流程。”


 

还有网友调侃道:“关键问题是,Qwen QwQ-32B 能‘做空’英伟达(NVIDIA)吗?”


 

据阿里 Qwen 团队介绍,这是他们探索了强化学习(RL)扩展的成果,RL 训练可持续提升模型性能,特别是在数学和代码生成方面。同时,他们观察到,持续优化 RL 训练能使中等规模模型在性能上媲美超大规模 MoE 模型。

 

此外,QwQ-32B 还集成了智能体相关能力,能够在使用工具的同时,根据环境反馈动态调整推理过程,使推理更具批判性与适应性。这一技术进展不仅进一步验证了 RL 的变革潜力,也为通用人工智能(AGI)的发展提供了新的思路。

 

QwQ-32B 以 Apache 2.0 许可证开源,用户可通过 Qwen Chat 直接进行体验。

2025-03-06 11:3110686

评论

发布
暂无评论

轮询锁在使用时遇到的问题与解决方案!

王磊

8月日更

带你走进MySQL全新高可用解决方案-MGR

vivo互联网技术

数据库 分布式 MySQL 高可用

突破四大要素  飞算SoFlu助力企业实现DevOps落地

飞算JavaAI开发助手

DevOps 自动化 软件工程

互动直播应用快速开发实践(基于声网)

大伟

Linux之tr命令

入门小站

Linux

架构训练营第 1 期 模块六作业

高远

最近很火的低代码到底是什么?

禅道项目管理

大前端 测试开发 语言 & 开发

数仓出现“wait in ccn queue”的时候,怎么迅速定位处理?

华为云开发者联盟

线程 hash 负载 数仓 GaussDB(DWS)

在线JSON转PHP Array工具

入门小站

工具

【浪潮云说】直播间第七期今日准时开播!

云计算运维

解析ThreadPoolExecutor类是如何保证线程池正确运行的

华为云开发者联盟

线程池 任务 注释 Worker类

自主创新国产化科技:智能制造之 SMT 产线监控管理可视化

一只数据鲸鱼

数据可视化 工业4.0 制造业 智慧工厂

Rust从0到1-高级特性-函数和闭包进阶

rust 闭包 函数指针

python实现两台不同主机之间进行通信(客户端和服务端)——Socket

Python研究者

8月日更

Vue进阶(八十六):iframe 结合 window.postMessage 实现跨域通信

No Silver Bullet

Vue 8月日更 iframe

接口测试,负载测试,并发测试,压力测试区别

与风逐梦

软件测试 接口测试

Hadoop MapReduce原理、序列化

Mike

适女化科技(二):让女性更安全的两条技术路径:软件硬件化与硬件软件化

脑极体

故事点数VS工时,研发工作量到底怎么算?

LigaAI

敏捷开发 故事点数 工时 研发工作量

国产接口工具ApiPost如何利用CryptoJS对请求参数进行MD5/AES加解密

Proud lion

大前端 后端 加密解密 Postman 接口文档

一起吐槽接口文档

FunTester

接口文档 接口测试 API Jira FunTester

训练千亿参数模型的法宝,昇腾CANN异构计算架构来了~

华为云开发者联盟

盘古 CANN 千亿参数模型 异构计算 计算架构

C#多线程开发-线程基础 01

Andy阿辉

C# 多线程 8月日更 c#多线程

LeetCode 每日一题「搜索插入位置」

陈皮的JavaLib

Java 面试 算法 LeetCode 8月日更

微信业务架构&学生管理系统架构选型

John

Spring的七大模块你了解吗?

4ye

Java spring 架构 后端 8月日更

面试Go语言开发?让这本书帮你感动面试官!

博文视点Broadview

最近很火的低代码到底是什么?

禅道项目管理

低代码 可视化 低代码平台

云小课|原来云备份不仅仅是能备份...

华为云开发者联盟

云备份 迁移数据 复制备份

易华录 X ShardingSphere|葫芦 App 后台数据处理的逻辑捷径

SphereEx

数据库 开源

百度信誉认证中台架构解析

百度Geek说

后端 软件架构 中台架构

阿里深夜发布 QwQ-32B 模型:仅1/20参数就可媲美DeepSeek R1,还能在苹果笔记本运行_生成式 AI_Tina_InfoQ精选文章