燃爆上海 5·23-24,AICon 大模型实战风暴,50+ 干货一网打尽,100% 日程上线 了解详情
写点什么

OpenAI 推出 GPT-4.1 系列:性能提升并支持长文本

作者:Robert Krzaczyński

  • 2025-05-16
    北京
  • 本文字数:1042 字

    阅读完需:约 3 分钟

大小:587.93K时长:03:20
OpenAI 推出 GPT-4.1 系列:性能提升并支持长文本

OpenAI 发布了新一代语言模型系列——GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano,现已通过 API 开放使用。该系列模型在多项技术基准测试中超越了 GPT-4o 和 GPT-4.5,并支持高达 100 万 tokens 的上下文长度。

 

OpenAI 表示,GPT-4.1 在代码能力、指令遵循和长文本理解方面均有提升。在衡量实际软件工程任务的 SWE-bench Verified 基准测试中,GPT-4.1 准确率达到 54.6%,较 GPT-4o(33.2%)提升 21 个百分点,比 GPT-4.5 高出 26.6 个百分点。在 Scale 的 MultiChallenge 指令基准测试中,该模型也比 GPT-4o 提高了 10.5 分。


来源:OpenAI 博客

 

OpenAI 还测试了该系列模型处理长文本输入的能力。GPT-4.1 全系模型均可支持长达 100 万 tokens 的上下文。在 OpenAI-MRCRGraphwalks 等内部评估中,GPT-4.1 在长文本任务(如分散信息检索与推理)中表现稳定。例如,在多跳推理基准测试 Graphwalks 中,GPT-4.1 得分为 61.7%,而 GPT-4o 仅为 42%。


来源:OpenAI 博客

 

除了主模型外,GPT-4.1 mini 以更低的延迟和成本提供了相近的性能。OpenAI 表示,该模型在多数智能评估中达到或超越 GPT-4o 水平,同时成本降低达 83%。GPT-4.1 nano 是该系列中最轻量也最快速的版本,专为分类和自动补全等简单任务设计,但仍保持高分表现,例如在 MMLU 测试中达到 80.1%,在 GPQA 测试中达到 50.3%。

 

OpenAI 特别强调了该模型在代码编辑能力的提升。在 Aider 的多语言基准测试中(该测试主要评估生成差异代码而非重写整个文件的能力),GPT-4.1 超越了包括 GPT-4.5 在内的所有前代模型。其不必要编辑的比例从 GPT-4o 的 9% 降至 2%。

 

OpenAI 确认 GPT-4.5 Preview 将于 2025 年 7 月 14 日停用,并表示 GPT-4.1 在成本和性能上的改进是此次迭代的主要原因。这印证了社区对 GPT-4.5 临时性质的猜测。一位 Reddit 用户评论道:

 

GPT-4.5 根本就是个预览版,连‘公测版’都算不上,它就是拿来测试新模型用的。既然不是正式版,可以说 GPT-4.5‘从未’存在过,所以新版才叫 GPT-4.1……开放期间 OpenAI 一直在收集数据……可能就是为了做个更强更便宜的蒸馏模型,最后搞出了 GPT-4.1。

 

定价方案也进行了调整。相比 GPT-4o,GPT-4.1 的常规查询费用降低了约 26%。提示词缓存折扣提升至 75%,且长文本使用不再收取超出标准 token 费用之外的附加费。

 

GPT-4.1 系列现已通过 OpenAI API 开放使用。目前 ChatGPT 仍在升级 GPT-4o,因此暂未搭载该系列模型。

 

查看英文原文:OpenAI Introduces GPT‑4.1 Family With Enhanced Performance and Long-Context Support

2025-05-16 17:002

评论

发布
暂无评论
OpenAI 推出 GPT-4.1 系列:性能提升并支持长文本_AI&大模型_InfoQ精选文章