写点什么

Qwen“半成品”推理模型刷下 AIME 满分,俘获大批国外开发者!实测碾压 GPT-5 Thinking、还能写侦探小说

  • 2025-11-05
    北京
  • 本文字数:2756 字

    阅读完需:约 9 分钟

大小:1.30M时长:07:34
Qwen“半成品”推理模型刷下AIME满分,俘获大批国外开发者!实测碾压GPT-5 Thinking、还能写侦探小说

整理 | 华卫


“当所有人都在关注 OpenAI 的各种风波时,通义千问正在低调发力。中国的 AI 实验室确实有着不一样的发展节奏。”


刚刚,阿里发布了最新推理模型 Qwen3-Max-Thinking 的早期预览版,一位国外的网友对其发出这样的感叹。


Qwen3-Max-Thinking 是 Qwen3-Max-Preview 的推理增强版本,目前还是一个仍在训练中的中间检查点模型。但据称,即便在当前阶段,当该模型结合工具使用功能并提升测试时的计算规模后,它在 AIME 2025、HMMT 等具有挑战性的国际知名的高水平数学推理竞赛中,已能实现 100% 的正确率。



现在,用户可在 Qwen Chat 及阿里云 API 中试用当前版本,随着训练的持续推进,后续还将推出更多更新。


Qwen Chat: https://chat.qwen.ai/?thinking=true


阿里云 API(enable_thinking=True): https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-max-preview


虽然刚推出不久,但上新推理功能的 Qwen3-Max-Preview 在 AI 社区迅速引起了关注。不少国外网友纷纷评价道,“对于一个中间检查点模型来说,能在 AIME 上实现 100% 正确率堪称疯狂。”而这似乎意味着:现在我们正逐渐进入一个新阶段:这些模型不再只是机械输出答案,而是真的开始通过思考来解决问题了。


值得注意的是,此前该模型还没有推理能力时,社区内就有许多用户基于个人体验广泛反馈,其在某些推理类任务上的表现比官方宣传的更出色。


排名比 Deepseek-V3.1 高,速度也比 ChatGPT 更快?


Qwen3-Max-Preview 最早在今年 9 月下旬推出,是阿里迄今为止规模最大、能力最强的语言模型,参数量在 1 万亿以上,预训练数据达到 36T tokens。该模型支持 262144 个 token 的上下文窗口,最大输入 token 数为 258048,最大输出 token 数为 32768。模型还支持上下文缓存功能,可在长时间会话中优化性能表现。


根据通义千问(Qwen)公布的对比基准测试数据显示,该 1 万亿参数模型在多项测试中均处于领先地位。在 SuperGPQA、AIME25、LiveCodeBench v6、Arena-Hard v2 以及 LiveBench(2024 年 11 月 25 日版本)等测试中,Qwen3-Max-Preview 的排名始终高于 Claude Opus 4、Kimi K2 和 Deepseek-V3.1。


在放出思考模式之前,就有外媒对其进行简短、纯经验性测试后称,Qwen3-Max-Preview 不仅规避了大语言模型(LLM)常见的缺陷, 比如错误统计 “Strawberry” 一词中字母 “R” 的出现次数、错误判断 9.11 与 9.11 哪个更大,而且响应速度极快。在 Qwen Chat 上的初步测试中,它的速度也确实比 ChatGPT 更快。


同时,有用户反馈,尽管当时 Qwen3-Max-Preview 并未被定位为推理模型,但在其测试中,该模型的表现优于多款 SOTA 模型,不仅能解决基础算术题、24 点类谜题,甚至还攻克了一道“GPT-5 Thinking 和 Gemini 2.5 Pro 无工具辅助时均无法解答” 的题目。根据其观察,面对更难的挑战时,该模型似乎会切换到类推理模式,输出结构清晰、步骤分明的答案。



并且,Qwen3-Max-Preview 已成为 Hugging Face 机器学习增长负责人 Ahsen Khaliq 开发的开源编程工具 AnyCoder 中的默认选项。Khaliq 还在 X 上发布了一张屏幕截图,展示了它如何在 AnyCoder 上的单个提示中创建一个完整的体素像素花园。



不过,与通义千问以往发布的开源版本不同,Qwen3-Max-Preview 未基于开源许可证发布。这意味着现阶段开发者需通过该公司的付费 API,或上述提及的分销合作伙伴获取其使用权。阿里云为 Qwen3-Max-Preview 推出了分级定价方案,费率根据输入 token 的规模不同而变化:


  • 0–32K token:每百万输入 token 0.861 美元,每百万输出 token 3.441 美元

  • 32K–128K token:每百万输入 token 1.434 美元,每百万输出 token 5.735 美元

  • 128K–252K token:每百万输入 token 2.151 美元,每百万输出 token 8.602 美元


通义千问强调,该模型专为复杂推理、代码编写、处理 JSON 等结构化数据格式,以及创意类任务设计。其能力还延伸至通用对话与智能体行为,使其成为适用于企业与科研场景的多用途工具。


推理版的实测表现如何?


如今的 Qwen3-Max-Preview 实现了思考与非思考模式的有效融合。在思维模式下,其智能体编程、常识推理以及跨数学、科学和通用领域的推理等能力有了显著增强。不过,当前的早期预览版仅支持文本到文本这一模态,输出是“限时免费”的。


目前,已有不少开发者和 AI 爱好者对该模型进行了实测体验并放出了使用感受。


一名开发者称,“在处理简单提示词时,Qwen3-Max-Thinking 的表现优于复杂提示词场景。从前端开发的角度来看,Qwen3-Max-Thinking 的表现比较一般。在部分推理题上,Qwen3-Max-Thinking 的表现超过了 GPT-5 Thinking。”



知名 YouTube 博主、AI 云工程师 Fahd Mirza 也第一时间测试了 Qwen3-Max-Thinking,案例是要求它创建一个使用 p5.js 的独立 HTML 文件,结果是:第一次尝试它就做得非常出色,几乎完成了代码的创建,描述了功能以及如何使用,最终呈现的效果也相当不错。


视频源 @Fahd Mirza(Qwen3-Max Thinking Released: Best Qwen Yet https://www.youtube.com/watch?v=DF5NMgMUmbw)


然而,也有开发者在实测该模型后先是表示,“考虑到它目前还只是预览版,团队确实需要抓紧时间继续训练优化。短期内不建议用它来处理编程类任务。”后又补充道,“根据测试结论,Max 系列可能不再适用于编程了。”


视频源 @karminski3(https://x.com/karminski3/status/1985233932405891348)


这名开发者在社交平台上分享了他对 Qwen3-Max-Thinking 的详细测试结果:


“大象牙膏” 实验测试中,画面看起来整体偏暗且模糊,但这其实是光线问题 —— 我已经放大画面让大家看清效果了。模型生成的场景建模和粒子效果只能说一般。提示词的完成度则非常差。过山车测试表现还不错,各部件衔接虽不算完全平滑,但没有出现断裂情况,不过支撑柱存在部分穿模问题。鞭炮连锁爆炸测试完全不合格:无法完成连锁反应演示,物理效果也不太对。而且成功率极低,6 次生成中只有 1 次没有代码错误。Python 倒水程序测试表现尚可,在顶级模型里算是达到及格水平。


另外,生成过程中的网页界面过于花哨。提示词里并没有要求这么复杂的设计,但最终呈现的效果却夸张得离谱。那它擅长写前端页面吗?答案是否定的。我让它写了一个瀑布流图片网站 —— 这个需求很考验前端布局能力,大家可以看看结果。它做的布局一团乱,所有卡片都叠在一起了。相比之下,GLM-4.6 就做得很好,在不同缩放比例下都能实现完美的 CSS 布局。


与此同时,还有用户在 Qwen3-Max-Thinking 的帮助下写了一篇黑色侦探小说,并评价其“展现出强大的推理能力,是正在发展中的前沿 AI 该有的样子”。


参考链接:


https://venturebeat.com/ai/qwen3-max-arrives-in-preview-with-1-trillion-parameters-blazing-fast


声明:本文为 AI 前线翻译整理,不代表平台观点,未经许可禁止转载。

2025-11-05 17:515301

评论

发布
暂无评论

一图看懂CodeArts Release三大特性

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 华为云CodeArts

测试工作的价值体现

BY林子

软件测试 软件质量 测试的价值 绩效考核

我应该删除低质量页面以提高Google排名吗?

九凌网络

如何使用 NFTScan NFT API 在 BNB Chain 网络上开发 Web3 应用

NFT Research

NFT\ NFTScan API 接口

软件测试/测试开发丨UbuntuServer环境准备

测试人

软件测试

可视化流程编排(Bpmn.js)介绍及实践

ZA技术社区

众安科技 众安保险 ZA技术社区 无界山

如何使用Java调用商品详情API

Noah

项目管理必备神器!10款好用的在线看板工具推荐。

彭宏豪95

项目管理 效率工具 软件推荐 在线白板 看板工具

企业服务诞生了第一座企业掘金的数据枢纽——瓴羊港

ToB行业头条

新一代云原生可观测平台之CCE服务监控篇

华为云开发者联盟

云原生 后端 华为云 华为云开发者联盟 华为云CCE容器服

ApeCoin DAO猿岛质押游戏系统DAPP开发

薇電13242772558

NFT

文心一言 VS 讯飞星火 VS chatgpt (126)-- 算法导论11.1 1题

福大大架构师每日一题

福大大架构师每日一题

跨国传输的常见问题与对应解决方案

镭速

跨国数据传输 跨国传输 跨国传输软件

一文看懂MySQL 5.7和MySQL 8到底有哪些差异?

树上有只程序猿

MySQL MySQL 5.7 MySQL 8.0

微软曝光!ChatGPT 真实参数只有 200 亿?大模型评测基准已经失去意义?丨 RTE 开发者日报 Vol.76

RTE开发者社区

StoneDB-8.0-V2.1.0 企业版正式发布!免费公测活动正在进行中,快来参加!

StoneDB

MySQL 数据库 HTAP StoneDB

nebula-br local-store 模式,快速搭建主备集群实践

NebulaGraph

容灾备份

亚洲专业美发行业领军企业汉高中国签约赛博威,以TPM营销费用管理推进企业业务数字化改革

赛博威科技

接上回,如何用 LlamaIndex 搭建聊天机器人?

Zilliz

Milvus 向量数据库 ChatGPT LLM

聊点技术|秒级根因定位可能吗?博睿数据将不可能变为可能

博睿数据

运维 监控 可观测性

揭秘!自动化测试效率提升30%如何达成

HarmonyOS开发者

亚信科技斩获“鼎新杯”多项大奖!AntDB数据库在信创赛道再创佳绩

亚信AntDB数据库

AntDB数据库

3分钟教你linux服务器无损迁移备份Jenkins

javaNice

Java Java’

带你认识一下多模态对比语言图像预训练CLIP

华为云开发者联盟

人工智能 华为云 科技 华为云开发者联盟 多模态对比

Qwen“半成品”推理模型刷下AIME满分,俘获大批国外开发者!实测碾压GPT-5 Thinking、还能写侦探小说_AI&大模型_华卫_InfoQ精选文章