免费注册!6月19-20日,「亚马逊云科技中国峰会」重磅来袭! 了解详情
写点什么

OpenAI 推出 GPT-4.1 系列:性能提升并支持长文本

作者:Robert Krzaczyński

  • 2025-05-16
    北京
  • 本文字数:1042 字

    阅读完需:约 3 分钟

大小:587.93K时长:03:20
OpenAI 推出 GPT-4.1 系列:性能提升并支持长文本

OpenAI 发布了新一代语言模型系列——GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano,现已通过 API 开放使用。该系列模型在多项技术基准测试中超越了 GPT-4o 和 GPT-4.5,并支持高达 100 万 tokens 的上下文长度。

 

OpenAI 表示,GPT-4.1 在代码能力、指令遵循和长文本理解方面均有提升。在衡量实际软件工程任务的 SWE-bench Verified 基准测试中,GPT-4.1 准确率达到 54.6%,较 GPT-4o(33.2%)提升 21 个百分点,比 GPT-4.5 高出 26.6 个百分点。在 Scale 的 MultiChallenge 指令基准测试中,该模型也比 GPT-4o 提高了 10.5 分。


来源:OpenAI 博客

 

OpenAI 还测试了该系列模型处理长文本输入的能力。GPT-4.1 全系模型均可支持长达 100 万 tokens 的上下文。在 OpenAI-MRCRGraphwalks 等内部评估中,GPT-4.1 在长文本任务(如分散信息检索与推理)中表现稳定。例如,在多跳推理基准测试 Graphwalks 中,GPT-4.1 得分为 61.7%,而 GPT-4o 仅为 42%。


来源:OpenAI 博客

 

除了主模型外,GPT-4.1 mini 以更低的延迟和成本提供了相近的性能。OpenAI 表示,该模型在多数智能评估中达到或超越 GPT-4o 水平,同时成本降低达 83%。GPT-4.1 nano 是该系列中最轻量也最快速的版本,专为分类和自动补全等简单任务设计,但仍保持高分表现,例如在 MMLU 测试中达到 80.1%,在 GPQA 测试中达到 50.3%。

 

OpenAI 特别强调了该模型在代码编辑能力的提升。在 Aider 的多语言基准测试中(该测试主要评估生成差异代码而非重写整个文件的能力),GPT-4.1 超越了包括 GPT-4.5 在内的所有前代模型。其不必要编辑的比例从 GPT-4o 的 9% 降至 2%。

 

OpenAI 确认 GPT-4.5 Preview 将于 2025 年 7 月 14 日停用,并表示 GPT-4.1 在成本和性能上的改进是此次迭代的主要原因。这印证了社区对 GPT-4.5 临时性质的猜测。一位 Reddit 用户评论道:

 

GPT-4.5 根本就是个预览版,连‘公测版’都算不上,它就是拿来测试新模型用的。既然不是正式版,可以说 GPT-4.5‘从未’存在过,所以新版才叫 GPT-4.1……开放期间 OpenAI 一直在收集数据……可能就是为了做个更强更便宜的蒸馏模型,最后搞出了 GPT-4.1。

 

定价方案也进行了调整。相比 GPT-4o,GPT-4.1 的常规查询费用降低了约 26%。提示词缓存折扣提升至 75%,且长文本使用不再收取超出标准 token 费用之外的附加费。

 

GPT-4.1 系列现已通过 OpenAI API 开放使用。目前 ChatGPT 仍在升级 GPT-4o,因此暂未搭载该系列模型。

 

查看英文原文:OpenAI Introduces GPT‑4.1 Family With Enhanced Performance and Long-Context Support

2025-05-16 17:006031

评论

发布
暂无评论

腾讯T4:结合我多年工作经验给程序员的几点忠告,别再埋头苦干了

Java 程序员 后端

[ CloudWeGo 微服务实践 - 04 ] 尝试操作数据(1)

baiyutang

golang 微服务 10月月更

群晖DS218+做maven私服(nexus3),mysql性能调优

Java 程序员 后端

老夫面试两个月真实经历:面试了20家大厂之后,发现这样介绍项目经验

Java 程序员 后端

聊聊多线程(一)线程的基础,linux集群架构师

Java 程序员 后端

聊聊多线程(四)线程安全之AtomicInteger类,最全面试考点与面试技巧

Java 程序员 后端

聚焦WAVE SUMMIT 2021,大咖齐聚共研深度学习(1),java在大数据技术中的运用

Java 程序员 后端

脉脉上瞬间爆火的Java高级面试题被全网封杀,这套资源到底有什么魅力?

程序员 后端

架构实战营- 模块二作业

危险游戏

架构实战营

网页制作工具之------Dreamweaver界面,springmvc教程下载

Java 程序员 后端

聊聊MyBatis的历史,mysql原理详解

Java 程序员 后端

肝完这份Linux网络编程笔记,感觉2年开发白干了,nginx反向代理原理转发过程

Java 程序员 后端

美团二面:聊聊线程池设计与原理,由表及里趣味解析,linux操作系统实用教程课后答案

Java 程序员 后端

聊聊RabbitMQ RabbitMQ相关面试题,kafka入门教程步骤

Java 程序员 后端

脑筋急转弯:如何用两个栈实现一个队列?用两个队列实现一个栈

Java 程序员 后端

腾讯T8纯手写66个微服务架构设计模式,全部学会真的“变强

Java 程序员 后端

腾讯五面、快手三面已拿offer(Java岗位,linux基础教程第二版pdf

Java 程序员 后端

腾讯启动有史以来最大校招:苦逼程序猿,拿头发换了高质量生活

Java 程序员 后端

腾讯技术大牛带你玩转Spring全家桶,赠三本Spring实战篇电子文档

Java 程序员 后端

膜拜!京东T9大牛沉淀三年终于整理出了这份架构核心修炼之道

Java 程序员 后端

老大让我优化数据库,我上来就分库分表,他过来就是一jio

Java 程序员 后端

老生常谈:MySQL高可用,java泛型原理

Java 程序员 后端

老板,运维和开发又打起来了!,你连基础的JVM运行时内存布局都忘了

Java 程序员 后端

聚焦WAVE SUMMIT 2021,大咖齐聚共研深度学习,关于线程池的五种实现方式

Java 程序员 后端

腾讯T4架构师:刷3遍以下面试题,你也能从小公司成功跳到大厂

Java 程序员 后端

老面试官问我:LRU 和 Innodb Buffer Pool 有什么关系?

Java 程序员 后端

脑筋急转弯:如何用两个栈实现一个队列?用两个队列实现一个栈(1)

Java 程序员 后端

腾讯、美团等六家大厂收到offer,浅谈大数据面试经历,2021Java面经

Java 程序员 后端

膜拜!华为内部都在强推的783页大数据处理系统:Hadoop源代码pdf

Java 程序员 后端

自己搭建电商平台初期,原来“超卖,java书籍百度网盘

Java 程序员 后端

聊聊MySQL主从复制的几种复制方式,上岸蚂蚁金服

Java 程序员 后端

OpenAI 推出 GPT-4.1 系列:性能提升并支持长文本_AI&大模型_InfoQ精选文章