写点什么

OpenAI 推出 GPT-4.1 系列:性能提升并支持长文本

作者:Robert Krzaczyński

  • 2025-05-16
    北京
  • 本文字数:1042 字

    阅读完需:约 3 分钟

大小:587.93K时长:03:20
OpenAI 推出 GPT-4.1 系列:性能提升并支持长文本

OpenAI 发布了新一代语言模型系列——GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano,现已通过 API 开放使用。该系列模型在多项技术基准测试中超越了 GPT-4o 和 GPT-4.5,并支持高达 100 万 tokens 的上下文长度。

 

OpenAI 表示,GPT-4.1 在代码能力、指令遵循和长文本理解方面均有提升。在衡量实际软件工程任务的 SWE-bench Verified 基准测试中,GPT-4.1 准确率达到 54.6%,较 GPT-4o(33.2%)提升 21 个百分点,比 GPT-4.5 高出 26.6 个百分点。在 Scale 的 MultiChallenge 指令基准测试中,该模型也比 GPT-4o 提高了 10.5 分。


来源:OpenAI 博客

 

OpenAI 还测试了该系列模型处理长文本输入的能力。GPT-4.1 全系模型均可支持长达 100 万 tokens 的上下文。在 OpenAI-MRCRGraphwalks 等内部评估中,GPT-4.1 在长文本任务(如分散信息检索与推理)中表现稳定。例如,在多跳推理基准测试 Graphwalks 中,GPT-4.1 得分为 61.7%,而 GPT-4o 仅为 42%。


来源:OpenAI 博客

 

除了主模型外,GPT-4.1 mini 以更低的延迟和成本提供了相近的性能。OpenAI 表示,该模型在多数智能评估中达到或超越 GPT-4o 水平,同时成本降低达 83%。GPT-4.1 nano 是该系列中最轻量也最快速的版本,专为分类和自动补全等简单任务设计,但仍保持高分表现,例如在 MMLU 测试中达到 80.1%,在 GPQA 测试中达到 50.3%。

 

OpenAI 特别强调了该模型在代码编辑能力的提升。在 Aider 的多语言基准测试中(该测试主要评估生成差异代码而非重写整个文件的能力),GPT-4.1 超越了包括 GPT-4.5 在内的所有前代模型。其不必要编辑的比例从 GPT-4o 的 9% 降至 2%。

 

OpenAI 确认 GPT-4.5 Preview 将于 2025 年 7 月 14 日停用,并表示 GPT-4.1 在成本和性能上的改进是此次迭代的主要原因。这印证了社区对 GPT-4.5 临时性质的猜测。一位 Reddit 用户评论道:

 

GPT-4.5 根本就是个预览版,连‘公测版’都算不上,它就是拿来测试新模型用的。既然不是正式版,可以说 GPT-4.5‘从未’存在过,所以新版才叫 GPT-4.1……开放期间 OpenAI 一直在收集数据……可能就是为了做个更强更便宜的蒸馏模型,最后搞出了 GPT-4.1。

 

定价方案也进行了调整。相比 GPT-4o,GPT-4.1 的常规查询费用降低了约 26%。提示词缓存折扣提升至 75%,且长文本使用不再收取超出标准 token 费用之外的附加费。

 

GPT-4.1 系列现已通过 OpenAI API 开放使用。目前 ChatGPT 仍在升级 GPT-4o,因此暂未搭载该系列模型。

 

查看英文原文:OpenAI Introduces GPT‑4.1 Family With Enhanced Performance and Long-Context Support

2025-05-16 17:006303

评论

发布
暂无评论

Java进阶(二十二)使用FileOutputStream写入文件

No Silver Bullet

9月月更 FileOutputStream 写文件

想成为数据科学家,哪些技能你必须具备?

雨果

Github点击破百万!这部《从零开始学架构》神书就此霸榜

Java-fenn

Java 程序员 java面试 Java书籍 Java面试题

为什么阿里人成长速度极快?看完他们 Java 架构进化笔记,值得学习

Java-fenn

Java 程序员 java面试 Java学习 Java面试题

MFC框架下,加密图片加载并显示功能

中国好公民st

c++ 加密 9月月更

前端高频面试题汇总(一)

loveX001

JavaScript 前端

预约直播 | 大规模稀疏模型演进与DeepRec

阿里云大数据AI技术

开源项目 AI技术 模型稀疏训练

大数据ELK(一):集中式日志协议栈Elastic Stack简介

Lansonli

ELK 9月月更

亿级日志队列回放性能测试初探

FunTester

从零到一构建完整知识体系,阿里最新SpringBoot原理最佳实践真香

程序员小毕

Java spring 源码 面试 SpringBoot 2

[Go WebSocket] 多房间的聊天室(六)为什么要加锁?不加锁行不行啊?

HullQin

Go golang 后端 websocket 9月月更

前端二面必会面试题(附答案)

beifeng1996

JavaScript 前端

C/C++生态工具链——gcc/g++编译器使用指南

独立开发者_CoderZZ

c++ C语言 GCC g++ gcc 编译器

漏洞修复实用指南

SEAL安全

开源 漏洞 安全漏洞 漏洞修复 开源漏洞

手把手教大家编译 flowable 源码

江南一点雨

Java workflow flowable

HUAWEI DevEco Testing注入攻击测试:以攻为守,守护OpenHarmony终端安全

OpenHarmony开发者

OpenHarmony

头大了,Mysql写入数据十几秒后被自动删除了

南城FE

MySQL 前端 nodejs

恍然大悟,才知道什么是真正的思维导图!

博文视点Broadview

Java后端每日学点系列?线程知否,List懂否,垃圾回收器晓得否

知识浅谈

线程 垃圾回收器 9月月更

智能湖仓架构实践:利用 Amazon Redshift 的流式摄取构建实时数仓

亚马逊云科技 (Amazon Web Services)

数据库的视图该怎么用?

阿柠xn

MySQL 数据库 视图 9月月更

使用 FSM 管理 osm-edge 服务网格入口流量

Flomesh

Service Mesh 服务网格

阿里云张新涛:连接产业上下游,构建XR协作生态

阿里云弹性计算

交互 XR 视觉计算 沉浸式体验

关关难过关关过!2022年BAT面试通关秘籍:面前规划+面试题集+简历优化+面经分享等!

收到请回复

Java 云计算 开源 架构 编程语言

数据库的schema与数据类型优化

阿柠xn

数据库 sql 高性能 优化技巧 9月月更

不惧繁杂背景,视频编辑服务一键实现人像抠图

HarmonyOS SDK

推荐:实现 SVG 动画的 5 个 JavaScript 库~

掘金安东尼

前端 9月月更

腾讯前端一面常考面试题合集

loveX001

JavaScript 前端

OKR之剑·理念篇01: OKR带给我们的改变

vivo互联网技术

OKR 目标管理 研发管理

OpenAI 推出 GPT-4.1 系列:性能提升并支持长文本_AI&大模型_InfoQ精选文章