2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

阿里通义旗舰模型 Qwen3-Max 亮相

  • 2025-09-24
    北京
  • 本文字数:730 字

    阅读完需:约 2 分钟

大小:387.01K时长:02:12
阿里通义旗舰模型Qwen3-Max亮相

9 月 24 日,2025 云栖大会开幕,阿里通义旗舰模型 Qwen3-Max 重磅亮相,性能超过 GPT5、Claude Opus 4 等,跻身全球前三。


Qwen3-Max 包括指令(Instruct)和推理(Thinking)两大版本,其预览版已在 Chatbot Arena 排行榜上位列第三,正式版性可望再度实现突破。


Qwen3-Max 为通义千问家族中最大、最强的基础模型。该模型预训练数据量达 36T tokens,总参数超过万亿,拥有极强的 Coding 编程能力和 Agent 工具调用能力。


在大模型用 Coding 解决真实世界问题的 SWE-Bench Verified 测试中,Instruct 版本斩获 69.6 分,位列全球第一梯队;在聚焦 Agent 工具调用能力的 Tau2-Bench 测试中,Qwen3-Max 取得突破性的 74.8 分,超过 Claude Opus4 和 DeepSeek-V3.1。



【图说】:Qwen3-Max-Instrurct 测评分数


Qwen3-Max 的推理增强版本 Qwen3-Max-Thinking-Heavy 也展现出非凡性能,结合工具调用和并行推理技术,其推理能力创下新高,尤其在聚焦数学推理的 AIME 25 和 HMMT 测试中,均达到突破性的满分 100 分,为国内首次。Qwen3-Max 推理模型之所以能够取得优异成绩,原因在于大模型在解数学题时懂得调动工具,能够写代码做题,同时,增加测试时的计算资源,也让模型表现变得更好。


【图说】:Qwen3-Max-Thinking-Heavy 测评分数


大模型预训练原理 Scaling Law(规模化法则)认为,持续地增长数据和参数规模,是通向 AGI 的可能路径之一。由于自然数据的数量有限,当前有部分学者认为预训练的 Scaling Law 即将逼近上限,而 Qwen3-Max 的性能突破显示,继续增大数据、模型参数,依然能锻造出更强的模型,给予了大家更多的信心。


目前,通义千问系列模型已经实现从 0.5B 到超万亿的全尺寸覆盖,包含三百多个大模型,可满足不同场景的需求。


即日起,用户可在通义千问 QwenChat 上免费体验 Qwen3-Max,也可通过阿里云百炼平台调用 API 服务。

2025-09-24 11:495191

评论

发布
暂无评论

PoseiSwap:通过 RWA 的全新叙事,反哺 Nautilus Chain 生态

股市老人

2023-07-31:用r、e、d三种字符,拼出一个回文子串数量等于x的字符串。 1 <= x <= 10^5。 来自百度。

福大大架构师每日一题

福大大架构师每日一题

Squids openGauss | 云上免费openGauss数据库服务

daydayup

IoTOS-App v0.6.0 智能诊断、用量/会话记录、批量业务办理、

开源物联卡管理平台-设备管理

物联网平台 IoT 开源软件 国产开源 物联网展

openGauss运维能力之SQLPatch解密

daydayup

Apache IoTDB v1.1.1/v1.1.2 发布|增加 ZSTD 压缩,show variables 增加时间精度

Apache IoTDB

IoTDB Apache IoTDB

远程控制软件安全吗?一文看懂ToDesk、RayLink、TeamViewer、Splashtop相关安全机制

颜淡慕潇

安全 远程控制 远程桌面工具 ToDesk

【我和openGauss的故事】openGauss的WDR报告解读

daydayup

openGauss内核分析(三):SQL解析

daydayup

openGauss获2022年度创新产品奖!

daydayup

惊喜!1行Python代码,瞬间测你工作量,分享一个统计代码行数的神器

程序员晚枫

Python GitHub 开源项目 工作量

什么是MES,什么是WMS,MES与WMS有什么区别?

优秀

MES系统 WMS系统

openGauss+Wasm:构建安全高效的UDF执行引擎

daydayup

配置 Sublime Text4为 C++ 编辑器的方法

芯动大师

ChatPaper全流程加速科研:论文阅读+润色+优缺点分析与改进建议+审稿回复

汀丶人工智能

人工智能 自然语言处理 nlp chatpaper

openGauss内核分析(四):查询重写(二)

daydayup

数字人第一剑,先斩“尹天仇”

脑极体

AI

DHorse v1.3.0 发布,基于k8s的发布平台

tiandizhiguai

DevOps k8s

北岩律师事务所:50000余家客户的选择,全国首家专注大消费领域的精品律所

联营汇聚

最全的3D动画软件介绍来了!良心总结9款3D动画制作必备软件

龙智—DevSecOps解决方案

Unity 虚幻引擎 maya 3D动画软件 Houdini

【我和openGauss的故事】openGauss易知易会的几个实用特性

daydayup

已确认!将数据安全管理纳入操作风险管理范畴

原点安全

大会议程正式公布 华为开发者大会看点前瞻

极客天地

平台工程动态 MonthlyNews 2023-7

杨振涛

云原生 研发效能 平台工程 开发者体验 内部开发者平台

中文多模态医学大模型智能分析X光片,实现影像诊断,完成医生问诊多轮对话

汀丶人工智能

人工智能 自然语言处理 计算机视觉 多模态大模型

亚马逊云科技如何助力中国企业建立“出海”的云端母港?

Lily

提升数据质量的四大有效方式

树上有只程序猿

数字化 数据质量

Sprint Boot学习路线2

小万哥

Java spring Spring Cloud Spring Boot 后端

杭州快盈施佳:基于支付宝小程序云的文旅数智新实践

TRaaS

小程序

祝贺!openGauss社区技术委员会主席李国良当选2023 IEEE FELLOW

daydayup

阿里通义旗舰模型Qwen3-Max亮相_自然语言处理_木子_InfoQ精选文章