时隔16年Jeff Barr重返10.23-25 QCon上海站,带你看透AI如何重塑软件开发! 了解详情
写点什么

研究显示:AI 编程工具在经验丰富的开发者手中表现未达预期

作者:Matt Foster

  • 2025-07-22
    北京
  • 本文字数:1310 字

    阅读完需:约 4 分钟

大小:667.56K时长:03:47
研究显示:AI编程工具在经验丰富的开发者手中表现未达预期

一项最新的研究对 AI 工具能够加速软件开发的普遍认知提出了挑战。METR的研究人员针对经验丰富的开源开发者开展了一项随机对照试验,这些开发者使用了 Claude 3.5 和 Cursor Pro 等 AI 增强型开发工具。研究结果显示,与预期相反,AI 辅助编程使得任务完成时间延长了 19%,尽管开发者们认为他们工作得更快。这一发现揭示了 AI 所承诺的潜在效益与实际影响之间可能存在的显著差距。


为了在真实环境中评估 AI 的实际影响,研究人员设计了一个基于生产级环境的随机对照试验(RCT)。他们没有使用合成基准测试,而是邀请了经验丰富的开发者,在成熟的开源代码库中完成真实的开发任务。


参与者是 16 位专业开发者,他们在各自被分配的项目中平均拥有 5 年的开发经验。这些项目均为成熟且知名的开源代码库,包含了来自开发者自身代码库的真实、“实战”问题。这些代码库规模庞大,代码行数超过 110 万行。


在 246 个任务中,每位开发者被随机分配到最多两小时的会话,其中一部分开发者可以使用 AI 辅助,而另一部分则被限制在不使用 AI 的环境中。能够使用 AI 的开发者使用的是集成了 Claude 3.5/3.7 Sonnet 支持的代码编辑器 Cursor Pro,而对照组则明确被禁止使用任何 AI 工具。


该研究综合收集了客观与主观两方面的指标,涵盖任务完成时间、代码质量以及开发者的主观感受。在每个任务开始前和结束后,开发者和外部专家分别对 AI 工具可能对生产力产生的影响进行了预测。


核心结果既显著又出人意料:使用 AI 辅助的开发者完成任务的时间比未使用 AI 的开发者多出 19%。这一结果与参与者和专家在任务前的预期背道而驰,他们曾预测平均速度会提升约 40%。



作者将这种减速归因于多种因素,包括花费在提示词、评审 AI 生成的建议以及将输出与复杂代码库整合的时间。通过对 140 多个小时的屏幕录像进行分析,他们确定了导致减速的五个关键因素。这些因素可能抵消了代码生成带来的任何初始收益,揭示了感知生产力与实际生产力之间的显著脱节。



研究人员指出,这种现象是一种“感知差距”——AI 工具引入的消耗在当下可能极为微妙,难以察觉,但其累积效应却会显著减缓现实世界的产出效率。感知与实际结果之间的鲜明对比,凸显了该研究的重要性:AI 工具的评估不仅应基于用户的主观感受,更应依赖于严格的量化测量。


作者提醒不要过度泛化他们的发现。尽管该研究在特定环境中观察到了使用 AI 工具导致的可测量的减速现象,但他们强调,许多促成这种现象的因素是特定于他们研究设计的。在研究中,开发者们是在大型、成熟的开源代码库中工作,这些项目不仅规模庞大,而且有着严格的审查标准和复杂的内部逻辑,对于开发者来说可能并不完全熟悉。任务被限制在两小时单位时间内,限制了开发者的探索,所有 AI 交互都通过单一工具链进行。


重要的是,作者强调未来的系统可能会克服当前所面临的挑战。通过改进提示词技术、优化代理框架,以及针对特定领域的微调,即使在类似的研究环境中,也有可能实现真正的生产力提升。

随着 AI 能力的持续快速发展,作者将他们的发现框架化,不是对 AI 工具的有用性做出最终裁决,而是作为快速演变的领域的一个数据点,这个领域仍需要严格的现实世界评估。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


原文链接:

https://www.infoq.com/news/2025/07/ai-productivity/

2025-07-22 10:215386

评论

发布
暂无评论

HTML回流与重绘

空城机

JavaScript html 大前端 5月日更

差点败北,蚂蚁金服的六轮面试我是怎么撑过来的?(Java岗)

Java架构师迁哥

数据

顿晓

数据 5月日更

【案例】星环科技原厂数据备份恢复软件,让大数据与AI应用有备无患

星环科技

一举拿下贪心算法

Simon郎

Java 大数据 算法 LeetCode 数据结构与算法

生态十年,禾之三变

脑极体

博睿数据携手阿里云,打造以用户为中心的智能运维生态

博睿数据

阿里云 智能运维 博睿数据

一文掌握 Java8 Stream 中 Collectors 的 24 个操作

看山

Java

零基础学习 NLP-DAY4 - 恶补Python - 基础1

Qien Z.

Python nlp 5月日更

【案例】星环智能分析工具 Sophon,助力上海农商行搭建决策型人工智能平台

星环科技

路上,小胖问我:Redis 主从复制原理是怎样的?

一个优秀的废人

redis redis集群 主从复制

程序员的基础技能

风翱

程序员 5月日更 基础技能

apm应用性能管理,非科班程序员求职经历分享,看这一篇就够了

欢喜学安卓

android 程序员 面试 移动开发

antd table input 失焦的问题

blueju

打破思维定式(八)

Changing Lin

Web渗透测试:信息收集篇

Thrash

ARST- 日常打卡 4

pjw

看亚马逊云科技如何助力英国教育科技公司 Firefly 快速落地中国|精选案例

亚马逊云科技 (Amazon Web Services)

“智慧丽江 数说未来” 百分点科技助力“智慧丽江”城市大脑上线

百分点大数据团队

Python 分支结构详解

若尘

分支 Python编程 5月日更

Hive改表结构的两个坑|避坑指南

数据社

大数据 hive 面试 5月日更

2021年4月云主机性能评测报告新鲜出炉,盛大云华东蝉联冠军!

博睿数据

看Amazon Graviton 如何实现优化性能、降低工作负载成本!

亚马逊云科技 (Amazon Web Services)

百分点数据科学实验室:基于数据驱动的销量预测模型建构

百分点大数据团队

百分点科技联合市场研究协会(CMRA)发布《2021五一出行消费体验报告》

百分点大数据团队

自动化下载文件(IE浏览器)

IT蜗壳-Tango

5月日更

网络攻防学习笔记 Day13

穿过生命散发芬芳

5月日更 网络攻防

Android屏幕适配,音视频学习指南来咯,文末领取面试资料

欢喜学安卓

android 程序员 面试 移动开发

HashMap

ltc

hashmap

TDH8.0 使用必读 :为什么你需要存算解耦的多模型数据管理平台

星环科技

谈谈“鸡娃”现象

石云升

教育 5月日更

研究显示:AI编程工具在经验丰富的开发者手中表现未达预期_AI&大模型_InfoQ精选文章