推理模型综合测评报告 2025_AI&大模型_InfoQ研究中心

推理模型综合测评报告 2025

发布于：2025-05-29 10:00

InfoQ 研究中心在对推理模型的训练原理、能力表现等进行深入分析后，围绕逻辑推理、数学推理、语言推理、多步推理、幻觉控制五大核心领域共计300道测试题目，对包括DeepSeek-R1、k1.5、Claude-3.7-Sonnet-Reasoning、GLM-Z1、Doubao-1.5-thinking-pro、o3、文心 X1 Turbo、Qwen3-235B-A22B在内的八款热门推理模型进行了全面评估。

查看更多 

下载此书

研究背景

近期国内外以推理能力为核心的推理模型频繁发布，InfoQ 研究中心在对推理模型的训练原理、能力表现等进行深入分析后，围绕逻辑推理、数学推理、语言推理、多步推理、幻觉控制五大核心领域共计 300 道测试题目，对包括 DeepSeek-R1、k1.5、Claude-3.7-Sonnet-Reasoning、GLM-Z1、Doubao-1.5-thinking-pro、o3、文心 X1 Turbo、Qwen3-235B-A22B 在内的八款热门推理模型进行了全面评估。

InfoQ 研究中心希望通过这次评估，帮助技术领域的同仁更深入地了解国内外推理模型在各维度推理领域的表现，从而为大模型的持续进步和应用实施提供参考和助力。

测试结果

整体来看，推理模型在幻觉控制、数学推理、逻辑推理都表现出了比较亮眼的成绩，但多步推理的短板仍然较为明显。

引用测试中，推理模型幻觉呈现更加隐蔽的特点，并且擅于虚构各类具体数据或者生成具体论文/报告/产品名称，让推理模型的输出看起来更有依据。
推理模型在以数字、符号为代表的代数和分析领域得分较高，但涉及到平面或空间的几何结构时，思考时间变长，准确率也有所下降。
推理模型在文本长度增加、场景复杂度增加的情况下，准确性存在明显下降。
推理模型在对话意图识别上优势明显，部分模型对中文汉字的字形结构存在基础认知，例如左右、上下、独字以及包围结构等，但在认知准确性上仍有一定优化空间。
在面对化学、物理、生物、医药、工程学等领域的复杂问题时，推理模型的思考时间是所有维度中最长的，准确性也是最低的。

各能力维度 Top5 模型

从各维度推理模型的表现来看，O3 和文心 X1-Turbo 均在两个细分维度位居第一，O3 在数学推理和多步推理两个维度位居第一，文心 X1 Turbo 在幻觉控制和语言推理两个维度位居第一，Qwen3-235B-A22B 在逻辑推理维度位居第一。

除了准确性外，报告还在回答准确性与思考时长之间的关系进行了研究。

报告目录

● 推理模型发展阶段和发展因素分析

● 推理模型测评体系和结果分析

● 推理模型未来展望

创作场景

推理模型综合测评报告 2025

作者：InfoQ研究中心

研究背景

测试结果

各能力维度 Top5 模型

报告目录

评论

订阅

架构训练营 - 第1周课后作业 - 学习总结

架构师训练营 - 大作业二

2020.09.14-2020.09.20学习总结

架构师训练营第1周学习总结

司法区块链破解互联网案件审判难

Atlassian 金融企业敏捷转型线上峰会剧透来袭！

一周信创舆情观察(8.24~9.13)

从开源协议到谷歌禁用华为、Docker实体清单事件

大作业：用思维导图画出训练营知识点

不正经的计算机专业学生拍摄照片分享

提交项目到gitee报错Push to origin/master was rejected的解决办法

Week 1 命题作业

拥抱K8S系列-08-通过rancher部署nginx应用

机器学习在滴滴网络定位中的探索和实践

大作业

洞爷湖-安静与灵动

架构师训练营期末大作业

面试官：谈一下你对DDD的理解？我：马什么梅？

架构师训练营1期第1周：架构方法 - 总结

架构师训练营 - 第 1 周课后作业（1 期）

期末大作业（一）

从 Java 中的零拷贝到五种IO模型

迷茫吗？来看这15个程序员的回答，比你搜集多少资料都有用

甲方日常 18

微服务 API 网关kong的爬坑之路

让冰城的温暖冬天，不再有“隐秘的角落”

我看过最长的图，是百度绘制的AI蓝图

架构师培训期末大作业

架构师训练营 - 同城快递架构文档

踩坑记 | 多aar下修改常量的一个小坑

第一周总结

创作场景

推理模型综合测评报告 2025

作者：InfoQ研究中心

研究背景

测试结果

各能力维度 Top5 模型

报告目录

评论

推荐阅读

订阅

大厂实战PPT下载