免费注册!6月19-20日,「亚马逊云科技中国峰会」重磅来袭! 了解详情
写点什么

OpenAI 发布大模型现实世界软件工程基准测试 SWE-Lancer

作者:Daniel Dominguez

  • 2025-04-06
    北京
  • 本文字数:954 字

    阅读完需:约 3 分钟

OpenAI 发布大模型现实世界软件工程基准测试 SWE-Lancer

OpenAI 发布 SWE-Lancer 基准测试,用于评估 AI 大语言模型在现实世界自由职业软件工程任务中的表现。该基准测试的数据集包含来自 Upwork 的 1400 多个任务,总价值高达 100 万美元。这些任务既包括独立的编码活动,也包括管理决策,复杂程度和报酬各有不同,充分模拟了现实世界中的自由职业场景。


SWE-Lancer 通过严格的评估方法来反映软件工程的经济价值和复杂性。它采用经过专业工程师验证的先进的端到端测试方法来评估模型在实际环境中的表现。尽管 AI 大语言模型近期取得了显著进展,但初步结果显示,这些模型在应对基准测试中的多数任务时仍然面临严峻挑战。


基准测试涵盖了多种任务,如应用程序逻辑开发、UI/UX 设计以及服务器端逻辑实现,确保能够对模型能力进行全面的评估。SWE-Lancer 还为研究人员提供了一个统一的 Docker 镜像和公共评估拆分,用以促进 AI 模型评估过程中的协作和透明度。


该项目旨在推动对 AI 在软件工程领域经济影响的研究,特别是潜在的生产力提升和对劳动力市场的影响。通过将模型性能与货币价值联系起来,SWE-Lancer 展现了 AI 在软件工程中的实际影响,并凸显了持续优化 AI 技术的重要性。


在基准测试中表现最好的模型是 Claude 3.5 Sonnet,在独立编码任务中的成功率为 26.2%,这表明 AI 能力仍有很大的提升空间。许多模型在需要深度上下文理解或评估多个提案的任务方面表现不佳,这表明未来的模型可能需要更复杂的推理能力。


一些评论表示对 SWE-Lancer 的实际应用表示怀疑,认为可能只对特定群体有吸引力,另一些人则认为这是理解 AI 对软件工程社会经济影响的关键一步,与行业向 AI 驱动的生产力工具发展的整体趋势相契合,正如 Gartner 2027 所预测的软件工程智能平台的广泛采用。


用户 Alex Bon 表示:


终于有机会让 AI 证明它也能在零工经济中生存下来了!


独立黑客 Jason Leow 则表示:


我喜欢这个发展方向。用全栈问题进行测试,将其与市场价值联系起来,这正是日常开发工作所面临的东西。我一直觉得旧的基准测试有些不太对劲。


SWE-Lancer 为评估 AI 在自由职业软件工程中的应用提供了一个重要的框架,揭示了 AI 在实际应用中的挑战与机遇。基准测试的结果凸显了进一步研究和开发的必要性,以便提升 AI 模型在现实世界软件工程任务中的表现。


查看英文原文

https://www.infoq.com/news/2025/03/openai-swe-benchmark/

2025-04-06 10:006269

评论

发布
暂无评论

GAIA:智能运维领域通用公开数据集

云智慧AIOps社区

算法 AIOPS 数据集 场景 智能运维

别慌!阿里专家破SpringBoot:入门+基础+进阶+项目

Java~~~

Java 数据库 架构 面试 Spring Boot

数据库是什么意思?有什么用?有哪些类型?

行云管家

数据库 运维 IT

阿里内部架构解密:网络+分布式+RPC+消息中间件+微服务

Java~~~

Java spring 架构 面试 微服务

收藏!阿里P9耗时28天,总结历年亿级活动高并发系统设计手册

Java~~~

Java 架构 面试 高并发 系统

太强了!京东首席架构师深邃洞察:服务化+云原生+微服务

Java~~~

Java 架构 面试 云原生 架构师

令我入职阿里的750页微服务架构深度解析文档有何神秘之处?

Java 编程 架构 面试 架构师

CTO离职前悄悄和我说,吃透这5本Java核心技术笔记,涨薪特别简单

Java~~~

Java MySQL spring 架构 面试

无场景不智能-面向场景的智能运维算法体系

云智慧AIOps社区

算法 日志 场景 智能运维 数据指标

云智慧智能研究院实习生招聘信息~只等优秀的你!

云智慧AIOps社区

深度学习 招聘 异常检测 实习 智能运维

C/S结构是什么意思?有什么优点?

行云管家

数据库 运维 IT

浅析 DDD 领域驱动设计

牧小农

DDD 领域驱动

为什么UI自动化难做?—— 关于Selenium UI自动化的思考

LigaAI

测试 UI自动化

一文搞懂音视频开发技术点及职业发展方向

赖猫

c++ android 音视频

加速国产开源软件创新,云智慧AIOps社区正式发布

云智慧AIOps社区

开源 算法 数据 场景 智能运维

狂刷《Java权威面试指南(阿里版)》,冲击“金九银十”有望了

Java 编程 架构 面试 程序人生

阿里内部最新“SpringCloudAlibaba学习笔记”出炉

Java 阿里巴巴 架构 面试 微服务

GitHub上标星120K!Alibaba官网发布了这份Java全栈知识体系手册

Java~~~

Java 架构 面试 JVM 多线程

华为云GaussDB首次亮相2021服贸会,为数字人民币提供坚实数据底座

华为云数据库小助手

金融科技 数字经济 GaussDB 华为云数据库

“小巨人”的转型烦恼,百度智能云能否解压?

百度开发者中心

人工智能 企业资讯 中小企业

百度短视频推荐系统的目标设计

百度Geek说

架构 后端 推荐系统 短视频

必杀器!鹅厂首推569页Netty+Redis+ZK+高并发

Java~~~

Java redis 架构 面试 Netty

横空出世!复盘B站面试坑我最深的Java并发:JDK源码剖析

Java~~~

Java 源码 架构 jdk 面试

27W字总结阿里Java高并发编程:案例+源码+面试+系统架构设计

Java~~~

Java 架构 面试 算法 多线程

在同一台计算机中运行多个MySQL服务

Java 数据库 后端 msyql

把工作讲给家人听

FunTester

读书笔记 FunTester 奈非文化手册 办公效率 居家工作

精品!阿里P7爆款《K8s+Jenkins》技术笔记,高质量干货必收藏

Java 程序员 架构 面试 k8s

安卓工控主板双网口有什么用途?

双赞工控

安卓主板 工控主板

无敌!阿里巴巴开源落地可实操项目:网约车+咚宝商城+英雄传说

Java~~~

Java 架构 面试 项目 架构师

云智慧AIOps研究院来咯~

云智慧AIOps社区

技术 算法 数据 智能运维 指标

打爆怪兽 一起来养猪 养蜂人 幸福饭店

游戏开发_软件开发

软件 App 开发 游戏 语音合成

OpenAI 发布大模型现实世界软件工程基准测试 SWE-Lancer_AI&大模型_InfoQ精选文章