50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

GPT-4.1 登场,实测碾压 OpenAI 所有模型,但效果不如 Gemini?

  • 2025-04-15
    北京
  • 本文字数:1014 字

    阅读完需:约 3 分钟

大小:576.01K时长:03:16
GPT-4.1登场,实测碾压OpenAI所有模型,但效果不如Gemini?

昨晚,OpenAI 推出了名为 GPT-4.1 的新模型,该系列优先提升了编码能力和指令跟随能力,同时将上下文窗口扩展到了 100 万个 tokens,大约相当于 75 万个单词。所有这些模型的知识截止日期为 2024 年 6 月,相比之前的版本,能提供更贴合当下的上下文理解。

 

 

该系列包括标准的 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano,所有版本都可以通过 API 使用,但无法在 ChatGPT 中使用。其定价采用分级结构:GPT-4.1 每百万个输入 tokens 收费 2 美元,每百万个输出 tokens 收费 8 美元;而 GPT-4.1 nano 作为 OpenAI“有史以来最便宜、最快的的模型”,每百万个输入 tokens 仅收费 0.1 美元。



目前,已经有不少用户在体验 GPT-4.1 的效果了。一位网友在试用后表示,“GPT-4.1 可以处理所有其他 OpenAI 模型无法应对的大篇幅上下文。”还有网友用 GPT-4.1 模型绘制一只鹈鹕,并将其与 Grok 3、LLama 4 和 Gemini 2.5 Pro 的生成结果进行比较,被众人评 Gemini 做得更好。 Box AI 则分享了用 GPT-4.1 模型来研读一份冗长的收益报告文档、从中提取出数据字段的例子,并表示其“能够大规模地对任何数据类型进行查询、整合、分析和总结”。

 

此外,GPT 4.1 现已接入 ChatLLM。在代码处理方面,它似乎不如 Gemini 2.5 Pro 和 Claude 3.7 Sonnet。

 


OpenAI 声称,在包括 SWE-bench 在内的编码基准测试中,完整的 GPT-4.1 模型的表现优于其 GPT-4o 和 GPT-4o mini 模型。其中,GPT-4.1 在格式遵守、遵守否定指令和排序等任务上的排名优于 GPT-4o,GPT-4.1 mini 和 nano 更高效、更快速,但也牺牲了一定准确性。

 


根据 OpenAI 的内部测试,GPT-4.1 一次可生成的 token 数量(32,768 对 16,384)多于 GPT-4o,其在 SWE-bench Verified(SWE-bench 的人工验证子集)上的得分介于 52%和 54.6%之间。不过,这些数字略低于谷歌和 Anthropic 在同一基准测试中报告的、分别为 Gemini 2.5 Pro(63.8%)和 Claude 3.7 Sonnet(62.3%)的分数。

 

但 GPT-4.1 在 Video-MME 的长视频理解测试中达到了 72%的准确率,相比 GPT-4o 的 65.3%有了显著提升。

 


OpenAI 同时宣布,计划在 7 月 14 日之前从 API 访问中淘汰 GPT-4.5。该公司称,GPT-4.1 能够以大幅降低的成本提供“相当或更优的性能”。有网友表示,在 SimpleQA 基准测试中,GPT-4.5 仍然比 GPT-4.1 好得多。

 

 

但有不少网友都在调侃 OpenAI 命名模型的方式,“你们是怎么想出这些命名的呢?难道是掷骰子之类的方式吗?4.1 版本怎么能算是 4.5 版本的升级版?”“为什么不直接用 4.1 更新 4.5?对即将推出的版本 5 来说,这会比倒回去更新更合理。”

 

 

2025-04-15 14:195976

评论

发布
暂无评论

chia奇亚挖矿软件开发|chia奇亚挖矿APP系统开发

系统开发

聪明人的训练(二十六)

Changing Lin

4月日更

JVM类加载机制笔记

风翱

4月日更 JVM类加载

贝壳基于 Flink 的实时计算演进之路

Apache Flink

flink

教育是限制吗?

箭上有毒

4月日更

2021金三银四最新拼多多 +蚂蚁金服 +头条(已拿offer),面试真题分享!

Java 编程 程序员 架构 面试

linux高性能服务器编程--高性能服务器程序框架

赖猫

Linux 服务器开发 高性能服务器 C/C++后端

刹车失灵,数据的刹车是否也会失灵?

BinTools图尔兹

数据库 运维 dba 数据库管理工具

怎么理解组织?

石云升

团队建设 28天写作 职场经验 管理经验 4月日更

Linux字符截取命令-cut

进击的梦清

Linux 运维 xshell

RocketMQ 在使用上的一些排坑和优化

AI乔治

Java 架构 分布式 RocketMQ 高并发

分布式消息中间件(1):Rabbitmq入门到高可用实战!学会了这个还怕被B站面试官看不起?

北游学Java

Java 分布式 RabbitMQ 中间件

chia奇亚分币软件开发|chia奇亚分币APP系统开发

系统开发

网络协议学习笔记 Day5

穿过生命散发芬芳

网络协议 4月日更

Android 关于CPU类型的so文件兼容问题(ABI)

寻找生命中的美好

android native so库 abi so文件

IT 专业的高校大学生编程技能及就业问卷调研

Yano

问卷调查

聚力边缘计算 共建数字中国丨浪潮边缘云ICP Edge 2.0 全新发布

容器 & 服务: 扩容(二)

程序员架构进阶

容器 k8s 28天写作 弹性扩容 4月日更

近期值得关注的四款工具

彭宏豪95

效率 工具 Mac 4月日更

系统高可用之健康检查和健康度量那些事

vivo互联网技术

高可用 服务器

xch挖矿APP开发|xch挖矿系统软件开发

系统开发

【死磕JVM】什么是JVM调优?

牧小农

JVM jvm调优 JVM基础

MySQL 死锁套路:一次诡异的批量插入死锁问题分析

AI乔治

Java MySQL 架构

数据驱动的元数据组件

鲸品堂

方法论 架构设计原则 架构设计实战 数据分析方法论

Substrate 合约书之合约语言框架

Patract

rust Substrate polkadot Patract Wasm

2021团体程序设计天梯赛-部分题解

玄兴梦影

算法 比赛 算法解析

阿里P8独家揭秘:短期内升职加薪的方法,到底是什么?

Java架构师迁哥

合作伙伴眼中的鸿蒙,专访海雀科技研发总监李尹

Geek_283163

分布式消息中间件(2):Kafka系统学习—集群搭建与使用、副本机制和实时日志统计流程

北游学Java

Java kafka 分布式 中间件

金三银四 Java 架构面试指南上线, 1000 余道大厂面试真题,送你上岸

Java 编程 程序员 架构 面试

基于MySQL存储的自研消息队列架构设计文档

Geek_2e7dd7

GPT-4.1登场,实测碾压OpenAI所有模型,但效果不如Gemini?_AI&大模型_华卫_InfoQ精选文章