写点什么

阿里深夜发布 QwQ-32B 模型:仅 1/20 参数就可媲美 DeepSeek R1,还能在苹果笔记本运行

  • 2025-03-06
    北京
  • 本文字数:813 字

    阅读完需:约 3 分钟

大小:438.27K时长:02:29
阿里深夜发布 QwQ-32B 模型:仅1/20参数就可媲美DeepSeek R1,还能在苹果笔记本运行

刚刚,阿里 Qwen 团队发布了最新的 QwQ-32B 推理模型。其参数规模为 320 亿,但在推理能力上可媲美 DeepSeek-R1——后者总参数量高达 6710 亿,其中激活参数为 370 亿。


 

阿里 Qwen 团队近日对 QwQ-32B 进行了一系列基准测试,全面评估其在数学推理、代码生成及一般问题解决能力方面的表现。测试结果显示,QwQ-32B 在多个关键指标上展现出强劲竞争力,并与当前领先的多个模型——包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始 DeepSeek-R1——进行了对比分析。

 

Hugging Face 和 ModelScope 的介绍页面显示,QwQ-32B 是一个密集模型,未采用 MoE 结构,并支持 131k 的上下文长度。

 

有网友分析指出,由于 DeepSeek 模型规模高达 6710 亿参数,推理部署难度较大。要高效运行 DeepSeek,至少需要 22 台服务器,每台配备 8 张 GPU,这对企业来说是一个不小的成本和运维挑战。相比之下,QwQ-32B 仅有 320 亿参数,意味着它几乎可以在单机上高效运行,大大降低了推理部署的门槛。

 

“当然,许多企业在推理部署时会将预填充(Prefill)和解码(Decoding)阶段分开运行,因为它们的推理需求不同。但无论如何,QwQ-32B 避免了超大规模模型带来的复杂管道调度和专家并行(Expert Parallelism),简化了推理部署流程。”


 

还有网友调侃道:“关键问题是,Qwen QwQ-32B 能‘做空’英伟达(NVIDIA)吗?”


 

据阿里 Qwen 团队介绍,这是他们探索了强化学习(RL)扩展的成果,RL 训练可持续提升模型性能,特别是在数学和代码生成方面。同时,他们观察到,持续优化 RL 训练能使中等规模模型在性能上媲美超大规模 MoE 模型。

 

此外,QwQ-32B 还集成了智能体相关能力,能够在使用工具的同时,根据环境反馈动态调整推理过程,使推理更具批判性与适应性。这一技术进展不仅进一步验证了 RL 的变革潜力,也为通用人工智能(AGI)的发展提供了新的思路。

 

QwQ-32B 以 Apache 2.0 许可证开源,用户可通过 Qwen Chat 直接进行体验。

2025-03-06 11:3110868

评论

发布
暂无评论

知识分享:SQL注入的流程和步骤

Thrash

sql

重磅来袭:Spring之RequestBody的使用姿势小结

学Java关注我

Java 编程 架构 技术 程序人生

GitHub惊现!JVM G1GC的算法+实现,90张图+33段代码,你的面试专属!

Java架构师迁哥

百度C++工程师的那些极限优化(内存篇)

百度Geek说

c++ C# 内存访问

什么是Selenium?使用Selenium进行自动化测试

码语者

DevOps selenium

Redis的适用场景简单剖析

大数据技术指南

redis 4月日更

智汇华云 | ArSDN打通软件定义数据中心的“任督二脉”

华云数据

简简单单才是真,初试 Svelte

LeanCloud

一个诡异的MySQL查询超时问题,居然隐藏着存在了两年的BUG

CoderW

Java MySQL 数据库 程序员 互联网

0门槛成为“技术牛人”!星环科技线上分享课“星课堂”开播,快来报名,一探究竟

星环科技

人工智能 数据库 云计算 大数据 直播技术

家务活中的python协程

行者AI

协程 python学习

混搭的美感|靠谱点评

无量靠谱

2021年3月券商App行情刷新及交易体验评测报告

博睿数据

前端⼤规模构建演进实践

白玉兰开源

架构 大前端

从源码分析 MySQL 死锁问题入门

比伯

Java 编程 程序员 架构 计算机

一入爬虫深似海,从此早睡是路人

Thrash

华云大咖说 | 华云数据与数科网维携手共建国产云生态

华云数据

Golang 对象池

escray

学习 极客时间 Go 语言 4月日更

前端DDD总结与思考

白玉兰开源

大前端 DDD

软件测试——教育机构课程顾问常见黑话大全

程序员阿沐

程序员 软件测试 教育 机构 教育培训

肝了15000字性能调优系列专题(JVM、MySQL、Nginx and Tomcat),看不完先收藏

北游学Java

Java MySQL nginx tomcat JVM

如何深入的学习C语言

cdhqyj

编程 C语言 计算机 嵌入式

【转载】图形化系统开发组件X-Series(一)——XrossUnit介绍

赫杰辉

2020年12月的面试经历:美团4面+字节4面(均已拿offer),面试真题分享

Java架构师迁哥

一文搞定 Flink Job 的运行过程

shengjk1

flink flink源码 flink源码分析

彻底搞懂ThreadLocal

千珏

Java 源码分析 多线程 ThreadLocal

打造创新模型,博睿数据首倡服务可达的数据链DNA

博睿数据

博睿数据携数据链DNA创新理念,闪耀金融科技应用发展研讨会四川站

博睿数据

前端规范之路

白玉兰开源

大前端 开发规范

聪明人的训练(二十二)

Changing Lin

4月日更

Redis为什么是单线程?高并发响应快?

Linux服务器开发

redis Linux服务器开发 网络io C++后端开发 单线程

阿里深夜发布 QwQ-32B 模型:仅1/20参数就可媲美DeepSeek R1,还能在苹果笔记本运行_生成式 AI_Tina_InfoQ精选文章