写点什么

OpenAI 发布大模型现实世界软件工程基准测试 SWE-Lancer

作者:Daniel Dominguez

  • 2025-04-06
    北京
  • 本文字数:954 字

    阅读完需:约 3 分钟

OpenAI 发布大模型现实世界软件工程基准测试 SWE-Lancer

OpenAI 发布 SWE-Lancer 基准测试,用于评估 AI 大语言模型在现实世界自由职业软件工程任务中的表现。该基准测试的数据集包含来自 Upwork 的 1400 多个任务,总价值高达 100 万美元。这些任务既包括独立的编码活动,也包括管理决策,复杂程度和报酬各有不同,充分模拟了现实世界中的自由职业场景。


SWE-Lancer 通过严格的评估方法来反映软件工程的经济价值和复杂性。它采用经过专业工程师验证的先进的端到端测试方法来评估模型在实际环境中的表现。尽管 AI 大语言模型近期取得了显著进展,但初步结果显示,这些模型在应对基准测试中的多数任务时仍然面临严峻挑战。


基准测试涵盖了多种任务,如应用程序逻辑开发、UI/UX 设计以及服务器端逻辑实现,确保能够对模型能力进行全面的评估。SWE-Lancer 还为研究人员提供了一个统一的 Docker 镜像和公共评估拆分,用以促进 AI 模型评估过程中的协作和透明度。


该项目旨在推动对 AI 在软件工程领域经济影响的研究,特别是潜在的生产力提升和对劳动力市场的影响。通过将模型性能与货币价值联系起来,SWE-Lancer 展现了 AI 在软件工程中的实际影响,并凸显了持续优化 AI 技术的重要性。


在基准测试中表现最好的模型是 Claude 3.5 Sonnet,在独立编码任务中的成功率为 26.2%,这表明 AI 能力仍有很大的提升空间。许多模型在需要深度上下文理解或评估多个提案的任务方面表现不佳,这表明未来的模型可能需要更复杂的推理能力。


一些评论表示对 SWE-Lancer 的实际应用表示怀疑,认为可能只对特定群体有吸引力,另一些人则认为这是理解 AI 对软件工程社会经济影响的关键一步,与行业向 AI 驱动的生产力工具发展的整体趋势相契合,正如 Gartner 2027 所预测的软件工程智能平台的广泛采用。


用户 Alex Bon 表示:


终于有机会让 AI 证明它也能在零工经济中生存下来了!


独立黑客 Jason Leow 则表示:


我喜欢这个发展方向。用全栈问题进行测试,将其与市场价值联系起来,这正是日常开发工作所面临的东西。我一直觉得旧的基准测试有些不太对劲。


SWE-Lancer 为评估 AI 在自由职业软件工程中的应用提供了一个重要的框架,揭示了 AI 在实际应用中的挑战与机遇。基准测试的结果凸显了进一步研究和开发的必要性,以便提升 AI 模型在现实世界软件工程任务中的表现。


查看英文原文

https://www.infoq.com/news/2025/03/openai-swe-benchmark/

2025-04-06 10:006329

评论

发布
暂无评论

华为云智能云接入ICA,企业数据上云的信赖之选

与时俱进的时代

SeaTunnel 在天翼云数据集成平台的探索实践

Apache SeaTunnel

数据同步 数据集成平台

时序数据库 TDengine 签约华锐技术,助力行情数据处理分析

TDengine

数据库 tdengine 时序数据库

一文解析Spring JDBC Template的使用指导

华为云开发者联盟

开发 华为云 12 月 PK 榜

安全可靠,弹性灵活--华为虚拟专用网络VPN

爱尚科技

国产数据库市场横空杀出个巨头?亚信 AntDB数据库凭什么

亚信AntDB数据库

数据库 AntDB 国产数据库 AntDB数据库

先进工具,助力数据科学工作者快速调优丨和鲸科技 × Weights & Biases

ModelWhale

人工智能 数据分析 模型训练 训练营 企业合作

Fastjson的反序列化漏洞复现

网络安全学海

黑客 网络安全 信息安全 渗透测试 漏洞挖掘

羊了怎么居家办公?免费不限速的远控软件RayLink一解燃眉之急!!

RayLink远程工具

远程控制软件 远程办公软件 远控软件 RayLink

从三万英尺看全链路灰度

阿里巴巴云原生

阿里云 云原生 全链路灰度

Maya的7个实用操作技巧

Finovy Cloud

云渲染 Maya,渲染

软件测试丨一文搞定 Postman 接口自动化测试

测试人

软件测试 Postman 自动化测试 接口测试 测试开发

《工业和信息化领域数据安全管理办法(试行)》2023年正式执行

行云管家

数据安全

盘点Python 中字符串的常用操作

华为云开发者联盟

Python 开发 华为云 12 月 PK 榜

统一观测|如何使用 Prometheus 监控 Windows

阿里巴巴云原生

阿里云 云原生 Prometheus

架构实战营模块3作业

程序员小张

「架构实战营」

开源漏洞数量增长33%!企业安全债务不堪重负丨行业数据

SEAL安全

开源 开源安全 开源安全与治理

华为云智能云接入ICA,助力企业轻松上云

与时俱进的时代

用Echarts实现前端表格引用从属关系可视化

葡萄城技术团队

企业数据安全解决方案-购买堡垒机!

行云管家

企业 数据安全 堡垒机

Wallys/QCA9531,MIMO,2.4G,30dBm,2 x 2.4G MMCX//AR9344 802.11a/802.11n 5G

wallysmeng

刨根问底系列之grpc-java入门

零点999

从各行业的实际运用中,窥见华为云虚拟专用网络VPN的强大性能

爱尚科技

华为云Classroom聚焦人才数字化转型,引领智慧教育改革新模式

华为云开发者联盟

开发 华为云 12 月 PK 榜

智能合约DAPP流动性质押挖矿分红系统开发说明及方案

I8O28578624

对不起,你做的A/B实验都是错的——火山引擎DataTester科普

字节跳动数据平台

大数据 AB testing实战 12 月 PK 榜

原力MetaForce2.0版本佛萨奇系统开发技术讲解方案

I8O28578624

基于U-Net网络的图像分割的MindStudio实践

华为云开发者联盟

人工智能 华为云 12 月 PK 榜

Wallys/QCA9531,MIMO,2.4G,30dBm,2 x 2.4G MMCX//AR9344 802.11a/802.11n 5G

wallysSK

华为云全球加速GA:为您提供优质的网络服务

与时俱进的时代

华为云VPN,经典跟专业版企业应该怎么选?

爱尚科技

OpenAI 发布大模型现实世界软件工程基准测试 SWE-Lancer_AI&大模型_InfoQ精选文章