写点什么

阿里通义旗舰模型 Qwen3-Max 亮相

  • 2025-09-24
    北京
  • 本文字数:730 字

    阅读完需:约 2 分钟

大小:387.01K时长:02:12
阿里通义旗舰模型Qwen3-Max亮相

9 月 24 日,2025 云栖大会开幕,阿里通义旗舰模型 Qwen3-Max 重磅亮相,性能超过 GPT5、Claude Opus 4 等,跻身全球前三。


Qwen3-Max 包括指令(Instruct)和推理(Thinking)两大版本,其预览版已在 Chatbot Arena 排行榜上位列第三,正式版性可望再度实现突破。


Qwen3-Max 为通义千问家族中最大、最强的基础模型。该模型预训练数据量达 36T tokens,总参数超过万亿,拥有极强的 Coding 编程能力和 Agent 工具调用能力。


在大模型用 Coding 解决真实世界问题的 SWE-Bench Verified 测试中,Instruct 版本斩获 69.6 分,位列全球第一梯队;在聚焦 Agent 工具调用能力的 Tau2-Bench 测试中,Qwen3-Max 取得突破性的 74.8 分,超过 Claude Opus4 和 DeepSeek-V3.1。



【图说】:Qwen3-Max-Instrurct 测评分数


Qwen3-Max 的推理增强版本 Qwen3-Max-Thinking-Heavy 也展现出非凡性能,结合工具调用和并行推理技术,其推理能力创下新高,尤其在聚焦数学推理的 AIME 25 和 HMMT 测试中,均达到突破性的满分 100 分,为国内首次。Qwen3-Max 推理模型之所以能够取得优异成绩,原因在于大模型在解数学题时懂得调动工具,能够写代码做题,同时,增加测试时的计算资源,也让模型表现变得更好。


【图说】:Qwen3-Max-Thinking-Heavy 测评分数


大模型预训练原理 Scaling Law(规模化法则)认为,持续地增长数据和参数规模,是通向 AGI 的可能路径之一。由于自然数据的数量有限,当前有部分学者认为预训练的 Scaling Law 即将逼近上限,而 Qwen3-Max 的性能突破显示,继续增大数据、模型参数,依然能锻造出更强的模型,给予了大家更多的信心。


目前,通义千问系列模型已经实现从 0.5B 到超万亿的全尺寸覆盖,包含三百多个大模型,可满足不同场景的需求。


即日起,用户可在通义千问 QwenChat 上免费体验 Qwen3-Max,也可通过阿里云百炼平台调用 API 服务。

2025-09-24 11:495428
用户头像

发布了 32 篇内容, 共 18.4 次阅读, 收获喜欢 18 次。

关注

评论

发布
暂无评论

jmeter命令行执行测试并对测试报表进行初步分析

行者AI

测试 Jmeter

七面阿里险幸上岸,入职就是40*16K。网友:Java 面经交出来

Java 程序员 架构 面试 计算机

恍然大悟丨Java 中 RMI 的使用

Java架构师迁哥

高德 Serverless 平台建设及实践

阿里巴巴云原生

Serverless 运维 云原生 监控 中间件

腾讯T6大牛体系化带你学习Java面向对象,网友:这详解,太清晰了

牛哄哄的java大师

Java 面向对象 面向对象编程

SICP 习题2.6之丘奇数

程序员历小冰

函数式编程 SICP 5月日更

精选Hive高频面试题11道,附答案详细解析

五分钟学大数据

大数据 hive 5月日更

打破思维定式(六)

Changing Lin

5月日更

5月,腾讯最新职级技术要求曝光,Linux炸了。

linux大本营

c++ Linux 后台开发 架构师 服务器开发

使用docker compose快速部署前后端分离项目案例

皮特王

nginx Docker Vue Docker-compose

工商银行分布式服务 C10K 场景解决方案

阿里巴巴云原生

容器 微服务 云原生 监控 应用服务中间件

腾讯云大神亲码“redis深度笔记”,从基础到源码,应有尽有

Java 编程 程序员 架构

lowcode 和 nocode 没有穿衣服

Xargin

lowcode nocode

微服务的灾难

Xargin

架构 微服务 microservice

整天用对象,你知道Java中对象的内存布局吗?

码农参上

Java JVM 签约计划第二季

XML 文件解析

xcbeyond

XML配置 5月日更

技术实践丨如何解决异步接口请求快慢不均导致的数据错误问题?

华为云开发者联盟

JavaScript typescript 大前端 浏览器 angular

开发者必看,面试官心中的最佳数据库人才模型是什么样?

华为云开发者联盟

面试 开发者 华为云数据库 数据库人才

网页视频下载教程(腾讯, B站, 优酷, 爱奇艺)

科技猫

经验分享 教程 视频处理 工具分享 网页视频下载

两年半,50W的offer,三本,普通前端如何打好自己的牌

月哥

面试

一个朋友学会Java泛型后直接薪资翻倍!

北游学Java

Java 泛型

详解百度富媒体检索比对系统的关键技术

百度Geek说

大数据 后端 检索 #富媒体#

自己动手丰衣足食——自定义下拉框vue组件

空城机

vue.js 大前端 vue cli 5月日更 编写组件

只会重装系统的运维,不是好运维

运维研习社

Linux 5月日更 系统修复

华为云PB级数据库GaussDB(for Redis)揭秘第九期:与HBase的对比

华为云开发者联盟

HBase 华为云 开源数据库 NoSQL数据库 数据库GaussDB(for Redis)

【欢乐叫地主流程】需求分析/用例设计+游戏测试工作流程/测试计划

程序员阿沐

软件测试 需求分析 测试用例 游戏测试 测试计划

大部分两三年经验的程序员水平是怎样的?

Java架构师迁哥

Python监控打印机队列

IT蜗壳-Tango

IT蜗壳 IT蜗壳教学 5月日更

技术干货|7个 React 性能提升技巧

拍乐云Pano

React

Python OOP-5

若尘

oop Python编程 5月日更

大数据实战:网站流量日志数据分析

大数据技术指南

大数据 5月日更

阿里通义旗舰模型Qwen3-Max亮相_自然语言处理_木子_InfoQ精选文章