写点什么

马斯克先于谷歌放大招,Grok 4.1 登顶 AI 权威榜单,我们也动手测了一波

  • 2025-11-18
    北京
  • 本文字数:4050 字

    阅读完需:约 13 分钟

大小:1.94M时长:11:16
马斯克先于谷歌放大招,Grok 4.1登顶AI权威榜单,我们也动手测了一波

当谷歌 Gemini 3 将上线的消息传得沸沸扬扬时,马斯克更快一步默默放了个大招


今天凌晨,xAI 的最新大模型 Grok 4.1 直接上线了,响应速率明显提升、幻觉率大幅下降,回答既精准又“有人味儿”。


有两个模式Grok 4.1 和 Grok 4.1 Thinking。Thinking 版是前者的增强推理变体,二者基于同一底层模型,仅推理配置不同。


值得一提的是,Grok 4.1 对所有人免费开放,除了能在 Grok 官网、X 上使用,还推出了移动 APP 版,iOS 和安卓系统都照顾到了。



如果想要更有深度、更专业的回答,可以一键“让 Think 更努力思考”。


从 LMArena 的最新结果看,Grok 4.1 Thinking 以 1483 Elo 断层领跑,比 Gemini 2.5 Pro 高出 31 分


即使在不启用思考链的情况下,Grok 4.1 仍保持在榜单第二,显示出底层能力的稳定性。



有不少网友发出了“真香”感叹,Be like:



当然,也有一些质疑声,比如有人指出在生成代码这块儿,Grok 还不太有竞争力。



“双形态”的 Grok4.1 霸榜 LMArena


首先,关于 Grok4.1 和 Grok4.1 Thinking 是什么,我们不妨来看看 Grok4.1 自己的解释


Grok 4.1 是 xAI 于 2025 年 11 月 17 日发布的最新前沿大语言模型(Grok 4 的升级版),在对话智能、情感理解、创意写作、事实准确性和响应速度上大幅提升。


Grok 4.1 Thinking(有时简称 Grok 4.1 Thinking,代号 quasarflux)是同一模型的思考 / 推理模式(reasoning mode),会额外使用“思考令牌”进行链式推理(chain-of-thought),适合复杂数学、编程或多步问题。


Grok 4.1 Thinking 是 Grok4.1 的增强推理变体;二者基于同一底层模型,仅推理配置不同。



在全球最大、最具影响力的大模型盲测平台 LMArena 上,Grok4.1 展现出突破性的实力。


作为行业普遍认可的“非官方标准榜”,LMArena 通过匿名双盲对战和真实用户投票来评估模型质量,是 OpenAI、Google、Anthropic、Meta 等头部公司测试新模型的常规阵地,也常被用于提前投放未公开版本。


因此,在这里的胜出,几乎意味着真实用户偏好和模型综合能力的双重认可,是观察模型真实实力的最可信风向标


就在这样一个竞争最激烈的公开擂台上,xAI 的 Grok 4.1 系列拿下了极具含金量的一次 “双冠”:Grok 4.1 Thinking 版以 1483 Elo 拿下冠军,而非推理版 Grok 4.1 也以 1465 Elo 获得亚军。


特别值得注意的是,这个“即时响应”的非推理版本,成绩竟然反超所有其他厂商的推理模型,首次让“快模型”也站上了顶级性能的第一梯队,还把前代 Grok 4 远远甩至第 33 名。


亮眼成绩的背后的关键,在于训练方式的重构


xAI 为 Grok 4.1 引入了大规模强化学习系统,并使用前沿推理模型作为奖励模型,让其能够在训练过程中自主评估、快速迭代。这直接带来了更稳定的风格输出、更可靠的事实判断和更低的幻觉率。


在 Grok 4.1 的后训练阶段,xAI 将优化重点集中在信息检索类提示中的 幻觉 上。


这些底层方法上的改变,很快在实际测试中体现为显著的事实性改进。最新数据显示,Grok 4.1 的幻觉率已从 12.09% 下降至 4.22%,降幅接近三倍,成为本次升级中最突出的进步之一。


为了进一步验证这种“更准事实”的能力,团队还引入了更严苛的外部基准体系。其中最关键的指标之一是 FActScore——由 500 个真实人物传记问题组成,专门用于检验模型在搜索、事实判断和回答一致性上的表现。



在这一测试中,Grok 4.1 的 FActScore 从 9.89 降至 2.97,可信度提升同样显著。结合图表可以更直观看到:在相同的非推理模式下,Grok 4.1 的错误更少、偏差更小,整体输出更可靠。


这意味着在涉及检索、引用或调用外部事实的场景中,新版模型不再依赖语义猜测,而是能更准确地给出基于证据的回答。


换句话说,Grok 4.1 在大模型最难突破的“事实稳定性”方面迈出了关键一步——它不仅降低了错误数量,更压低了“错误的自信”。而这,正是大模型从“能说”走向“可信”必须跨过的门槛。


与此同时,Grok 4.1 的 “情商” 也有显著进步。


在 EQ-Bench 测试中,Grok 4.1 拿下了 1586 Elo 的高分,比上一代整整提升了一百多点。如果光看数字还不够直观,那么图片就更能说明问题:榜单上,Grok 4.1 和 Thinking 版稳稳占据前两名,把一众旗舰模型甩在身后,像 GPT-5 Chat、Gemini 2.5 Pro、Claude Opus 4 这种老牌强者,都被它轻松拉开了差距。


EQ-Bench 是一个由大模型评判的大模型情商测试集,用来评估主动情绪理解、洞察、共情和人际交往能力。它并不靠单轮问答,而是由 45 个角色扮演场景构成,每个场景包含 3 个回合,模拟现实世界里真正的“情绪对话”。模型需要在连续对话中保持风格一致、理解情绪上下文、做出恰当回应。最终结果通过两两对比得出,并以 Elo 形式归一化呈现。可以说,EQ-Bench 可以作为测试各模型“情商”的权威榜单。



为什么 Grok 4.1 能在 EQ-Bench 拿下这样亮眼的成绩?


在官方给出的一张关于“安慰失去猫咪”的对比图中,我们能找到答案。


旧版 Grok 的回复已经算得上温和体贴,但 Grok 4.1 的表达明显更细腻:它不只是在说“我理解你的难过”,还会捕捉到情绪里那些更隐微、真实的细节——比如空下来的睡窝、期待却再听不到的喵叫、那种像潮水一样反复袭来的悲伤。语气更稳、节奏更自然、情绪共鸣更到位,读起来就像在和一个真正懂你的人对话。



这使得 Grok 4.1 在情绪理解方面迈入第一梯队


除了事实层面的可靠性,Grok 4.1 在 创意写作能力 上同样出现大幅跃升。


在 Creative Writing v3 中,Grok4.1 的得分跃升至 1722Elo,较上一版几乎拉开 600 分,文本的叙事节奏、风格延展性与创造性都有质感跃升。


这个基准本身,Creative Writing v3 并不是简单的“单轮评分”。在测试中,模型需要围绕 32 个不同类别的写作提示进行 三轮独立创作,涵盖叙事、风格模仿、世界构建、人物情绪刻画等复杂任务,考验的不是一句话的巧思,而是持续稳定的文本创造能力。评分方式也和 EQ-Bench 类似,通过人工评分标准与模型对战得到标准化 Elo 得分。



在这份榜单中,Grok 4.1 Thinking 和 Grok 4.1 占据第二、第三,两者之间仅相差十几分;而其他强势模型如 O3、Claude Sonnet 4.5、Kimi K2 以及旧版 Grok 3 都被稳稳甩在后面,形成了明显的档位分层。


换句话说,Grok 4.1 已经进入全球最强“创意写作梯队”。


而在官方给出的新旧版本对比中,我们可以明显看出,Grok 4.1 已从“能写段子”的模型跃升为真正具备文学笔触的创作者:叙事更深、情绪更复杂、修辞更成熟、角色更沉浸。



这些升级最终体现在 更好的交互体验 上。Grok 4.1 拥有更稳定的“个性”,对用户意图的理解更细致,风格调节更自然。即便在非推理模式下,它也能稳定输出高质量回答,同时保持极快响应速度。


一个直观的例子是官方展示的旅游攻略对比。旧版 Grok 给出的内容像“百科式景点总览”,信息密度高但缺乏节奏感;而 Grok 4.1 写旧金山,则像一位真正“去过”“懂氛围”的本地向导,会主动提示拍照时间、推荐适合你的路线,甚至带出城市的具体气质,更像在和一个真实的人交流。



在复杂任务处理中,Grok 4.1 的上下文窗口扩展至 256K tokens,Fast 模式下更可达 200 万,使其在长文档理解、持续协作与大型内容生成中保持高连贯度,显著减少“断片”。


总体来看,Grok 4.1 的提升不是单点突破,而是从性能、事实性到情商、创意与交互体验的一次全维升级。


在正式亮相之前,Grok 4.1 其实已经悄悄经历了一轮为期两周的“静默发布”。从 2025 年 11 月 1 日到 14 日,xAI 将一部分真实用户流量在 grok.com、X 以及移动端应用中逐步切换到 Grok 4.1,以观察它在真实环境下的表现。


这一阶段最直观的结果,被清晰地体现在那张 64.78% 的饼图上:在双盲对比、用户不知情的前提下,Grok 4.1 的回答有 64.78% 的概率被用户选为“更好”。换句话说,面对同样的问题,用户在超过六成的情况下更偏爱 Grok 4.1。


可以说,Grok 4.1 展现的更高的情绪理解、更稳的事实性回应、更自然的交互风格,都通过静默测试被真实用户用投票“盖章”。



无论是 LMArena 双冠、幻觉率的断崖式下降,还是创意写作与情感能力的全面增强,新一代 Grok 已从“功能强”走向“体验强”,也为 xAI 在今年的大模型竞争中交出了一份极具说服力的答卷。


我们实测了 Grok4.1


AI 前线也上手实测了 Grok4.1。


首先是 推理能力 测试,我们设计了一道看似正常、实际“有诈”(有 2 组解)的题(各位可以自己动手验证下):


“四个同学参加数学竞赛,分别是:小 A、小 B、小 C、小 D。  比赛结束后,他们对自己名次做了如下四个判断:


(1)小 A 说:“我不是第一名。”  

(2)小 B 说:“我也不是最后一名。”  

(3)小 C 说:“我是第二名”  

(4)小 D 说:“我才不是最后一名呢。”


 已知:这四句中只有一句是真话,且四个人名次两两不同。问:哪一句是真话?四个人各自的名次如何?请给出推理过程。”


Grok 成功找出了 2 组解,还主动修复题目 Bug。



不过需要说明的是,它其实在主动修复题目 Bug 时“翻车”了,Grok 提出,如果把小 C 说的话改为:“小 B 是第二名”,这样答案就有唯一性。


但修改后,结果其实还有多种:

第一,如果有只有 B 在说真话,此时名次唯一确定为 A1、C2、B3、D4;

第二,如果只有 D 在说真话,此时只能确定 A1、B4,C 和 D 分别为第 2 第 3 名但不唯一。


再来看看 Grok 的写作能力


我们给出了这样的 Prompt:


用讲故事的口吻,准确且生动地、有感染力地讲述马斯克 xAI 发布 Grok4.1 的事。要求字数:500-600 字,必须包含:发布时间、产品亮点、市场背景等。


Grok4.1 的回答如下,还贴心地统计了字数:578——但是,咱就是说,Grok 恐怕是统计的英文字数(或者数学不好?),我们手工用 Word 统计了字数:861 字。



最后,我们测了一下 Grok4.1 的图像生成能力,效果不错:Grok 根据一段 Prompt 生成了两张图,还真挺像真实照片的(不过细节嘛,大家请自行评价)。



而且还能直接根据图像,一键生成视频,效果如下:



感兴趣的读者朋友们,也可以去上手试试。


参考链接:

https://x.com/xai/status/1990530499752980638

https://x.ai/news/grok-4-1

https://news.ycombinator.com/item?id=45958005

2025-11-18 14:134335

评论

发布
暂无评论

数据可视化软件有哪些?

优秀

数据可视化工具

如何在 15 分钟内度量 DORA 指标?

思码逸研发效能

研发效能

HTTP实体首部字段

穿过生命散发芬芳

HTTP 12月月更

企业金融App评测系列——微众银行以App构筑企业金融服务新生态,成为企业的随身数字银行

易观分析

企业 金融 银行

MAXHUB+腾讯会议:为未来办公造一部动力引擎

脑极体

Mysql到TiDB迁移,双写数据库兜底方案

京东科技开发者

数据库 开源 开发 迁移 双写数据库

架构实战营第10期模块3作业

Geek_4db2d5

Content-Length使用不规范导致Socket Hang Up问题

Kevin Wu

TCP HTTP HttpClient content-length

华为云数据库GaussDB(for MySQL)全方位守护企业云上数据安全

爱科技的水月

守护企业数据安全,华为云数据库 GaussDB(for MySQL)有绝招

科技之光

物联网 IOT 设备如何脱离信息孤岛?

eng八戒

物联网 IoT 网络 网络配置 涂鸦智能

【web 开发基础】PHP数组元素的添加和删除操作 (49)

迷彩

数组 数组操作 PHP基础 先进先出 后进先出

Elasticsearch查询及聚合类DSL语句宝典

京东科技开发者

数据库 存储 ES dsl 查询语句

天猫联合瓴羊、贝恩,打造“产品致胜”的DTC发展模式

瓴羊企业智能服务

云上数字化时代,华为云桌面助力政企办公升级

IT科技苏辞

架构实战营模块三作业

张贺

Java高手速成│编写你第一个数据库程序

TiAmo

JDBC 数据库· 12月月更

单测在商家前端业务中的实践

得物技术

架构 前端 Web 测试 单元测试 12 月 PK 榜

「实操」结合图数据库、图算法、机器学习、GNN 实现一个推荐系统

NebulaGraph

推荐系统 图数据库 图算法 GNN

企业数据上云,华为云数据库 GaussDB(for MySQL)轻松解决

科技之光

2022-12-27:etcd是无界面的,不好看,joinsunsoft/etcdv3-browser是etcd的web可视化工具之一。请问在k3s中部署,yaml如何写?

福大大架构师每日一题

云原生 k8s etcd k3s 福大大

内卷时代,华为云引领移动办公新潮流

清欢科技

Git使用教程之本地仓库的基本操作

芯动大师

git git 学习 Git命令行

Docker 中的挂载卷

HoneyMoose

阿里最新产:SpringCloud微服务架构进阶笔记(2023终极版)

程序员小毕

程序员 微服务 后端 架构师 java面试

使用 QuTrunk+Amazon ParallelCluster3 进行并行计算

亚马逊云科技 (Amazon Web Services)

亚马逊云科技 Hero 专栏

华为云数据库助力微鲤科技智能升级

爱科技的水月

如何写一个深度学习编译器

MegEngineBot

深度学习 开源 编译器 MegEngine MegCC

直呼内行,华为云桌面就是这么专业

IT科技苏辞

这一篇让你彻底搞懂微信生态里的二维码

产品海豚湾

产品经理 产品设计 二维码 微信扫码 SaaS 产品

丧心病狂,竟有Thread.sleep(0)这种神仙写法?

JAVA旭阳

Java JVM

马斯克先于谷歌放大招,Grok 4.1登顶AI权威榜单,我们也动手测了一波_生成式 AI_木子_InfoQ精选文章