Data+AI时代,如何打造下一代数智平台? 了解详情
写点什么

阿里深夜发布 QwQ-32B 模型:仅 1/20 参数就可媲美 DeepSeek R1,还能在苹果笔记本运行

  • 2025-03-06
    北京
  • 本文字数:813 字

    阅读完需:约 3 分钟

大小:438.27K时长:02:29
阿里深夜发布 QwQ-32B 模型:仅1/20参数就可媲美DeepSeek R1,还能在苹果笔记本运行

刚刚,阿里 Qwen 团队发布了最新的 QwQ-32B 推理模型。其参数规模为 320 亿,但在推理能力上可媲美 DeepSeek-R1——后者总参数量高达 6710 亿,其中激活参数为 370 亿。


 

阿里 Qwen 团队近日对 QwQ-32B 进行了一系列基准测试,全面评估其在数学推理、代码生成及一般问题解决能力方面的表现。测试结果显示,QwQ-32B 在多个关键指标上展现出强劲竞争力,并与当前领先的多个模型——包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始 DeepSeek-R1——进行了对比分析。

 

Hugging Face 和 ModelScope 的介绍页面显示,QwQ-32B 是一个密集模型,未采用 MoE 结构,并支持 131k 的上下文长度。

 

有网友分析指出,由于 DeepSeek 模型规模高达 6710 亿参数,推理部署难度较大。要高效运行 DeepSeek,至少需要 22 台服务器,每台配备 8 张 GPU,这对企业来说是一个不小的成本和运维挑战。相比之下,QwQ-32B 仅有 320 亿参数,意味着它几乎可以在单机上高效运行,大大降低了推理部署的门槛。

 

“当然,许多企业在推理部署时会将预填充(Prefill)和解码(Decoding)阶段分开运行,因为它们的推理需求不同。但无论如何,QwQ-32B 避免了超大规模模型带来的复杂管道调度和专家并行(Expert Parallelism),简化了推理部署流程。”


 

还有网友调侃道:“关键问题是,Qwen QwQ-32B 能‘做空’英伟达(NVIDIA)吗?”


 

据阿里 Qwen 团队介绍,这是他们探索了强化学习(RL)扩展的成果,RL 训练可持续提升模型性能,特别是在数学和代码生成方面。同时,他们观察到,持续优化 RL 训练能使中等规模模型在性能上媲美超大规模 MoE 模型。

 

此外,QwQ-32B 还集成了智能体相关能力,能够在使用工具的同时,根据环境反馈动态调整推理过程,使推理更具批判性与适应性。这一技术进展不仅进一步验证了 RL 的变革潜力,也为通用人工智能(AGI)的发展提供了新的思路。

 

QwQ-32B 以 Apache 2.0 许可证开源,用户可通过 Qwen Chat 直接进行体验。

2025-03-06 11:3110760

评论

发布
暂无评论

镜舟科技荣登 CCFA 2024 年度零售科技新锐企业榜单

镜舟科技

开源 数据分析 分析型数据库 StarRocks

benchANT (Time Series: Devops) 榜单数据解读

KaiwuDB

数据库 时序数据库 数据库性能优化

金融机构远程办公面临的安全挑战

芯盾时代

终端安全 零信任模型 金融业

HNSW分布式构建实践

阿里技术

分布式 算法 方案 向量检索 HNSW

RAG分块策略:主流方法(递归、jina-seg)+前沿推荐(Meta-chunking、Late chunking、SLM-SFT)

汀丶人工智能

rag

最新 HUAWEI DevEco Studio 使用技巧

万少

ide 鸿蒙 HarmonyOS NEXT

加速 AI 应用落地!DataWorks 数据治理中心全新升级为数据资产治理

阿里云大数据AI技术

人工智能 大数据 数据分析 Dataworks

您的 API 网关足够安全吗?

NGINX开源社区

nginx API api 网关 nginx 开源版

HAMi已在云厂商、互联网等数十家企业应用 异构算力利用率提升5-10倍

极客天地

有哪些值得推荐的AI人工智能网站?这10个一定要知道!

职场工具箱

人工智能 效率工具 办公软件 AIGC AI生成PPT

为什么ETH 3.0需要Lumoz的ZK算力网络?

加密眼界

Mybatis 拦截器实现单数据源内多数据库切换

京东科技开发者

前端最近发生的那些新鲜事儿(SEO,SSR和SSG?)

京东科技开发者

Git冲突高效解决策略:从识别到融合的全面指南

代码忍者

YashanDB V23.3重磅发布,持续深化1:1替代产品力

YashanDB

数据库 yashandb

手把手教你华为鸿蒙开发之第十二节

The Wang

华为

虚拟化世界,正上演一场「星际穿越」

脑极体

AI

智慧之锤|如何通过有监督微调锻造大模型

京东科技开发者

AICon北京站HarmonyOS技术分论坛开启招募

HarmonyOS开发者

阿里深夜发布 QwQ-32B 模型:仅1/20参数就可媲美DeepSeek R1,还能在苹果笔记本运行_生成式 AI_Tina_InfoQ精选文章