大咖直播-鸿蒙原生开发与智能提效实战!>>> 了解详情
写点什么

GPT-4.1 登场,实测碾压 OpenAI 所有模型,但效果不如 Gemini?

  • 2025-04-15
    北京
  • 本文字数:1014 字

    阅读完需:约 3 分钟

大小:576.01K时长:03:16
GPT-4.1登场,实测碾压OpenAI所有模型,但效果不如Gemini?

昨晚,OpenAI 推出了名为 GPT-4.1 的新模型,该系列优先提升了编码能力和指令跟随能力,同时将上下文窗口扩展到了 100 万个 tokens,大约相当于 75 万个单词。所有这些模型的知识截止日期为 2024 年 6 月,相比之前的版本,能提供更贴合当下的上下文理解。

 

 

该系列包括标准的 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano,所有版本都可以通过 API 使用,但无法在 ChatGPT 中使用。其定价采用分级结构:GPT-4.1 每百万个输入 tokens 收费 2 美元,每百万个输出 tokens 收费 8 美元;而 GPT-4.1 nano 作为 OpenAI“有史以来最便宜、最快的的模型”,每百万个输入 tokens 仅收费 0.1 美元。



目前,已经有不少用户在体验 GPT-4.1 的效果了。一位网友在试用后表示,“GPT-4.1 可以处理所有其他 OpenAI 模型无法应对的大篇幅上下文。”还有网友用 GPT-4.1 模型绘制一只鹈鹕,并将其与 Grok 3、LLama 4 和 Gemini 2.5 Pro 的生成结果进行比较,被众人评 Gemini 做得更好。 Box AI 则分享了用 GPT-4.1 模型来研读一份冗长的收益报告文档、从中提取出数据字段的例子,并表示其“能够大规模地对任何数据类型进行查询、整合、分析和总结”。

 

此外,GPT 4.1 现已接入 ChatLLM。在代码处理方面,它似乎不如 Gemini 2.5 Pro 和 Claude 3.7 Sonnet。

 


OpenAI 声称,在包括 SWE-bench 在内的编码基准测试中,完整的 GPT-4.1 模型的表现优于其 GPT-4o 和 GPT-4o mini 模型。其中,GPT-4.1 在格式遵守、遵守否定指令和排序等任务上的排名优于 GPT-4o,GPT-4.1 mini 和 nano 更高效、更快速,但也牺牲了一定准确性。

 


根据 OpenAI 的内部测试,GPT-4.1 一次可生成的 token 数量(32,768 对 16,384)多于 GPT-4o,其在 SWE-bench Verified(SWE-bench 的人工验证子集)上的得分介于 52%和 54.6%之间。不过,这些数字略低于谷歌和 Anthropic 在同一基准测试中报告的、分别为 Gemini 2.5 Pro(63.8%)和 Claude 3.7 Sonnet(62.3%)的分数。

 

但 GPT-4.1 在 Video-MME 的长视频理解测试中达到了 72%的准确率,相比 GPT-4o 的 65.3%有了显著提升。

 


OpenAI 同时宣布,计划在 7 月 14 日之前从 API 访问中淘汰 GPT-4.5。该公司称,GPT-4.1 能够以大幅降低的成本提供“相当或更优的性能”。有网友表示,在 SimpleQA 基准测试中,GPT-4.5 仍然比 GPT-4.1 好得多。

 

 

但有不少网友都在调侃 OpenAI 命名模型的方式,“你们是怎么想出这些命名的呢?难道是掷骰子之类的方式吗?4.1 版本怎么能算是 4.5 版本的升级版?”“为什么不直接用 4.1 更新 4.5?对即将推出的版本 5 来说,这会比倒回去更新更合理。”

 

 

2025-04-15 14:195998

评论

发布
暂无评论

终于拿到蚂蚁金服Offer!!!分享一下全程面试题和面试经验!

小Q

Java 学习 编程 架构 面试

Redis为什么这么快?

数据君

redis

老师讲的真棒!阿里P7级别面试经验总结,终获offer

欢喜学安卓

android 程序员 面试 移动开发

开发者,别让自己孤独

阿里巴巴云原生

开源 开发者 云原生 OAM CloudNative

高并发下,如何让你的数据库再快一点?

数据君

数据库

JVM调优不知道怎么回答,阿里总结四大模块,学不会就背过来

小Q

Java 学习 架构 面试 JVM

诚招译者 | Bruce Eckel On Java 8 中文版

图灵社区

Java

案件数同比下降七成 北京引入“区块链”化解物业纠纷

CECBC

区块链 法律

TensorFlow2 Fashion-MNIST图像分类(二)

书豪

http client 中的 connectionRequestTimeout, connectTimeout, socketTimeout

不在调上

一道腾讯面试题目:没有listen,能否建立TCP连接

linux大本营

c++ Linux TCP 后台开发 TCP/IP

了不起!靠技术脱贫,他们只用了短短两年!

华为云开发者联盟

人工智能 华为 技术

专访 CNCF 大使张磊:让云原生不再是大厂专属

阿里巴巴云原生

开源 开发者 云原生 OAM CloudNative

疫情之下,被公司优化掉!同事大部分都去了创业型的公司,而我仅仅一年经验,却斩获多家大厂offer

Java~~~

Java 面试 架构师技能

关于Kubernetes和Docker关系的八个问题

杨明越

电信新报告 | 数字化转型:搁置还是加速?

VoltDB

5G安全 通信 电子信息

深入Linux内核架构——进程虚拟内存

赖猫

c++ Linux

观点|发展区块链金融,长三角如何建设“四梁八柱”

CECBC

区块链

得不到提升的开发老鸟,试试这3个方法,让你事半功倍!

Linux服务器开发

程序员 后端 互联网人 底层应用开发 Linux服务器开发

老师讲的真棒!总结2020年最全180道Android岗面试题,Android校招面试指南

欢喜学安卓

android 程序员 面试 移动开发

Gemini双子新约系统软件开发|Gemini双子新约APP开发

系统开发

加密货币可能是人类历史上最大的/富国银行报告:加密货币投资像19世纪50年代的早期淘金热财富转移

CECBC

数字货币

深入浅出 WebRTC AEC(声学回声消除)

阿里云CloudImagine

阿里云 音视频 WebRTC 音频技术 视频云

IO问题成顽疾,鹅厂专家来教你

数据君

数据库

DolphinDB与Pandas对于大文本文件处理的性能对比

DolphinDB

数据库 pandas tsdb 数据库选择 DolphinDB

企业面临大危机,CRM崩溃告急,程序员竟用特殊手段化解危机!

Learun

敏捷开发 CRM

数据库面试要点:关于MySQL数据库千万级数据查询和存储

华为云开发者联盟

数据库 sql 存储

只需三步!慢日志去无踪

数据君

数据库

关于Redis分布式锁这一篇应该是讲的最好的了,赶紧收藏起来

比伯

Java 编程 架构 面试 技术宅

快速学会!啃完999页Android面试高频宝典,挥泪整理面经

欢喜学安卓

android 程序员 面试 移动开发

架构师训练营第 1 期 - 第 11周 - 学习总结

wgl

极客大学架构师训练营

GPT-4.1登场,实测碾压OpenAI所有模型,但效果不如Gemini?_AI&大模型_华卫_InfoQ精选文章