2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

OpenAI 发布大模型现实世界软件工程基准测试 SWE-Lancer

作者:Daniel Dominguez

  • 2025-04-06
    北京
  • 本文字数:954 字

    阅读完需:约 3 分钟

OpenAI 发布大模型现实世界软件工程基准测试 SWE-Lancer

OpenAI 发布 SWE-Lancer 基准测试,用于评估 AI 大语言模型在现实世界自由职业软件工程任务中的表现。该基准测试的数据集包含来自 Upwork 的 1400 多个任务,总价值高达 100 万美元。这些任务既包括独立的编码活动,也包括管理决策,复杂程度和报酬各有不同,充分模拟了现实世界中的自由职业场景。


SWE-Lancer 通过严格的评估方法来反映软件工程的经济价值和复杂性。它采用经过专业工程师验证的先进的端到端测试方法来评估模型在实际环境中的表现。尽管 AI 大语言模型近期取得了显著进展,但初步结果显示,这些模型在应对基准测试中的多数任务时仍然面临严峻挑战。


基准测试涵盖了多种任务,如应用程序逻辑开发、UI/UX 设计以及服务器端逻辑实现,确保能够对模型能力进行全面的评估。SWE-Lancer 还为研究人员提供了一个统一的 Docker 镜像和公共评估拆分,用以促进 AI 模型评估过程中的协作和透明度。


该项目旨在推动对 AI 在软件工程领域经济影响的研究,特别是潜在的生产力提升和对劳动力市场的影响。通过将模型性能与货币价值联系起来,SWE-Lancer 展现了 AI 在软件工程中的实际影响,并凸显了持续优化 AI 技术的重要性。


在基准测试中表现最好的模型是 Claude 3.5 Sonnet,在独立编码任务中的成功率为 26.2%,这表明 AI 能力仍有很大的提升空间。许多模型在需要深度上下文理解或评估多个提案的任务方面表现不佳,这表明未来的模型可能需要更复杂的推理能力。


一些评论表示对 SWE-Lancer 的实际应用表示怀疑,认为可能只对特定群体有吸引力,另一些人则认为这是理解 AI 对软件工程社会经济影响的关键一步,与行业向 AI 驱动的生产力工具发展的整体趋势相契合,正如 Gartner 2027 所预测的软件工程智能平台的广泛采用。


用户 Alex Bon 表示:


终于有机会让 AI 证明它也能在零工经济中生存下来了!


独立黑客 Jason Leow 则表示:


我喜欢这个发展方向。用全栈问题进行测试,将其与市场价值联系起来,这正是日常开发工作所面临的东西。我一直觉得旧的基准测试有些不太对劲。


SWE-Lancer 为评估 AI 在自由职业软件工程中的应用提供了一个重要的框架,揭示了 AI 在实际应用中的挑战与机遇。基准测试的结果凸显了进一步研究和开发的必要性,以便提升 AI 模型在现实世界软件工程任务中的表现。


查看英文原文

https://www.infoq.com/news/2025/03/openai-swe-benchmark/

2025-04-06 10:006453

评论

发布
暂无评论

OpenAI最新收购实时分析数据库Rockset释放出什么信号?

AI数据云Relyt

openai LLM 实时全索引数据仓库 实时分析 DataINfra

鸿蒙先锋共筑星河 | “南方基金App”全面拥抱HarmonyOS NEXT

最新动态

鸿蒙先锋共筑星河丨HarmonyOS NEXT走进医疗行业,革新运动康复体验

最新动态

美团携手HarmonyOS SDK,开启便捷生活新篇章

最新动态

基于Java“花鸣”B2C电子商务平台设计实现(源码+lw+部署文档+讲解等)

hunter_coder

后端开发

基于Java+微信小程序实现《购物商城系统》

hunter_coder

后端开发

基于Java“萌宠之家”宠物综合服务平台设计实现(源码+lw+部署文档+讲解等)

hunter_coder

后端开发

基于Java《数据库系统原理》课程平台设计实现(源码+lw+部署文档+讲解等)

hunter_coder

后端开发

基于Java+微信小程序实现《旅游出行必备商城》

hunter_coder

后端开发

基于Java+微信小程序实现《电子点餐系统》

hunter_coder

后端开发

鸿蒙先锋共筑星河 | 薪火相传,为鸿蒙原生应用的开发凝聚未来动力

最新动态

鸿蒙先锋共筑星河 |科技浪潮中的教育革新,看南京大学教授的HarmonyOS教学之路

最新动态

华为云盘古大模型驱动企业搜索,助力齐心集团共筑智能新时代

最新动态

Partisia Blockchain 基于领先的MPC方案,赋能医疗领域

股市老人

《编译原理》阅读笔记:p18

codists

编译原理

基于Java+微信小程序实现《教学辅助微信小程序》

hunter_coder

后端开发

基于Java“镜头人生”约拍网站系统设计实现(源码+lw+部署文档+讲解等)

hunter_coder

后端开发

基于Java:流浪动物领养信息系统设计实现(源码+lw+部署文档+讲解等)

hunter_coder

后端开发

OpenAI最新收购实时分析数据库Rockset释放出什么信号?

AI数据云Relyt

openai 数据基础设施 LLM 实时全索引数据仓库 DataINfra

原生鸿蒙的成长史中,书写着无数鸿蒙先锋的故事

最新动态

HarmonyOS SDK助力鸿蒙原生应用易感知、易理解、易操作

最新动态

LDO电源模块

芯动大师

芯片 LDO 电源

HDC 2024,响起一首空间智能化的行业协奏曲

脑极体

全屋智能

基于Java“游侠”旅游信息管理系统设计实现(源码+lw+部署文档+讲解等)

hunter_coder

后端开发

OpenAI 发布大模型现实世界软件工程基准测试 SWE-Lancer_AI&大模型_InfoQ精选文章