50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

GPT-4.1 登场,实测碾压 OpenAI 所有模型,但效果不如 Gemini?

  • 2025-04-15
    北京
  • 本文字数:1014 字

    阅读完需:约 3 分钟

大小:576.01K时长:03:16
GPT-4.1登场,实测碾压OpenAI所有模型,但效果不如Gemini?

昨晚,OpenAI 推出了名为 GPT-4.1 的新模型,该系列优先提升了编码能力和指令跟随能力,同时将上下文窗口扩展到了 100 万个 tokens,大约相当于 75 万个单词。所有这些模型的知识截止日期为 2024 年 6 月,相比之前的版本,能提供更贴合当下的上下文理解。

 

 

该系列包括标准的 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano,所有版本都可以通过 API 使用,但无法在 ChatGPT 中使用。其定价采用分级结构:GPT-4.1 每百万个输入 tokens 收费 2 美元,每百万个输出 tokens 收费 8 美元;而 GPT-4.1 nano 作为 OpenAI“有史以来最便宜、最快的的模型”,每百万个输入 tokens 仅收费 0.1 美元。



目前,已经有不少用户在体验 GPT-4.1 的效果了。一位网友在试用后表示,“GPT-4.1 可以处理所有其他 OpenAI 模型无法应对的大篇幅上下文。”还有网友用 GPT-4.1 模型绘制一只鹈鹕,并将其与 Grok 3、LLama 4 和 Gemini 2.5 Pro 的生成结果进行比较,被众人评 Gemini 做得更好。 Box AI 则分享了用 GPT-4.1 模型来研读一份冗长的收益报告文档、从中提取出数据字段的例子,并表示其“能够大规模地对任何数据类型进行查询、整合、分析和总结”。

 

此外,GPT 4.1 现已接入 ChatLLM。在代码处理方面,它似乎不如 Gemini 2.5 Pro 和 Claude 3.7 Sonnet。

 


OpenAI 声称,在包括 SWE-bench 在内的编码基准测试中,完整的 GPT-4.1 模型的表现优于其 GPT-4o 和 GPT-4o mini 模型。其中,GPT-4.1 在格式遵守、遵守否定指令和排序等任务上的排名优于 GPT-4o,GPT-4.1 mini 和 nano 更高效、更快速,但也牺牲了一定准确性。

 


根据 OpenAI 的内部测试,GPT-4.1 一次可生成的 token 数量(32,768 对 16,384)多于 GPT-4o,其在 SWE-bench Verified(SWE-bench 的人工验证子集)上的得分介于 52%和 54.6%之间。不过,这些数字略低于谷歌和 Anthropic 在同一基准测试中报告的、分别为 Gemini 2.5 Pro(63.8%)和 Claude 3.7 Sonnet(62.3%)的分数。

 

但 GPT-4.1 在 Video-MME 的长视频理解测试中达到了 72%的准确率,相比 GPT-4o 的 65.3%有了显著提升。

 


OpenAI 同时宣布,计划在 7 月 14 日之前从 API 访问中淘汰 GPT-4.5。该公司称,GPT-4.1 能够以大幅降低的成本提供“相当或更优的性能”。有网友表示,在 SimpleQA 基准测试中,GPT-4.5 仍然比 GPT-4.1 好得多。

 

 

但有不少网友都在调侃 OpenAI 命名模型的方式,“你们是怎么想出这些命名的呢?难道是掷骰子之类的方式吗?4.1 版本怎么能算是 4.5 版本的升级版?”“为什么不直接用 4.1 更新 4.5?对即将推出的版本 5 来说,这会比倒回去更新更合理。”

 

 

2025-04-15 14:195926

评论

发布
暂无评论

7000+字图文并茂解带你深入理解java锁升级的每个细节

华为云开发者联盟

Java 开发 华为云

中文版Postman?功能真心强大!

Liam

Java 开发者工具 Postman 后端开发 程序员进阶

不要再手动批量替换了,使用python AST模块批量替换

阿呆

Python AST 批量替换

AI金榜题名时,MLPerf榜单的份量究竟有多重?

脑极体

Spring你牛个啥,我承认刚才说话我声音有点大

zxhtom

7月月更

牛客java选择题每日打卡Day7

京与旧铺

7月月更

分布式算法入门之 Paxos 算法

宇宙之一粟

Basic paxos 7月月更

华为云ModelArts文本分类–外卖评论

逝缘~

深度学习 华为云 7月月更

如何开发引入小程序插件

Geek_99967b

小程序插件

鱼和熊掌可以兼得!天翼云弹性裸金属一招鲜!

天翼云开发者社区

服务器 弹性扩容

XaaS 陷阱:万物皆服务(可能)并不是IT真正需要的东西

雨果

云服务 xaas DaaS 本地服务

使用 RepositoryProvider简化父子组件的传值

岛上码农

flutter ios 安卓 移动端开发 7月月更

集合处理的利器

技术小生

java8 7月月更

国内低代码开发平台靠谱的都有哪些?

AIRIOT

低代码 物联网 低代码,项目开发

开创人工智能产业新未来!7月8日昇思生态论坛与你相约广州

科技热闻

一文读懂简单查询代价估算

华为云开发者联盟

数据库 后端 查询引擎

systemd-resolved 开启 debug 日志

程序员与厨子

ubuntu 运维 DNS systemd-resolved

企业数字化转型之路,从这里开始

天翼云开发者社区

数字化转型 云存储

Ubuntu 20.04 安装 Chisel

贾献华

7月月更

如何组织一场实战攻防演练

穿过生命散发芬芳

攻防演练 7月月更

一朵云开启智慧交通新未来

天翼云开发者社区

区块链 大数据 物联网

让开发效率飞速提升的跨端方案

Geek_99967b

小程序 跨端 小程序容器

微服务链路风险分析

阿泽🧸

7月月更 链路风险分析

从 1.5 开始搭建一个微服务框架——调用链追踪 traceId

悟空聊架构

日志 链路追踪 traceId 悟空聊架构 7月月更

【愚公系列】2022年7月 Go教学课程 004-Go代码注释

愚公搬代码

7月月更

【刷题记录】1. 两数之和

WangNing

7月月更

MMAP

北洋

Andriod 7月月更

场景化面试:关于分布式锁的十问十答

面试官问

分布式锁

Java方向~~0基础小白如何快速脱离0offer的苦海!

KEY.L

7月月更

刷个算法,结果第一题就蚌埠住了~~

为自己带盐

算法 力扣 7月月更

GPT-4.1登场,实测碾压OpenAI所有模型,但效果不如Gemini?_AI&大模型_华卫_InfoQ精选文章