写点什么

研究显示:AI 编程工具在经验丰富的开发者手中表现未达预期

作者:Matt Foster

  • 2025-07-22
    北京
  • 本文字数:1310 字

    阅读完需:约 4 分钟

大小:667.56K时长:03:47
研究显示:AI编程工具在经验丰富的开发者手中表现未达预期

一项最新的研究对 AI 工具能够加速软件开发的普遍认知提出了挑战。METR的研究人员针对经验丰富的开源开发者开展了一项随机对照试验,这些开发者使用了 Claude 3.5 和 Cursor Pro 等 AI 增强型开发工具。研究结果显示,与预期相反,AI 辅助编程使得任务完成时间延长了 19%,尽管开发者们认为他们工作得更快。这一发现揭示了 AI 所承诺的潜在效益与实际影响之间可能存在的显著差距。


为了在真实环境中评估 AI 的实际影响,研究人员设计了一个基于生产级环境的随机对照试验(RCT)。他们没有使用合成基准测试,而是邀请了经验丰富的开发者,在成熟的开源代码库中完成真实的开发任务。


参与者是 16 位专业开发者,他们在各自被分配的项目中平均拥有 5 年的开发经验。这些项目均为成熟且知名的开源代码库,包含了来自开发者自身代码库的真实、“实战”问题。这些代码库规模庞大,代码行数超过 110 万行。


在 246 个任务中,每位开发者被随机分配到最多两小时的会话,其中一部分开发者可以使用 AI 辅助,而另一部分则被限制在不使用 AI 的环境中。能够使用 AI 的开发者使用的是集成了 Claude 3.5/3.7 Sonnet 支持的代码编辑器 Cursor Pro,而对照组则明确被禁止使用任何 AI 工具。


该研究综合收集了客观与主观两方面的指标,涵盖任务完成时间、代码质量以及开发者的主观感受。在每个任务开始前和结束后,开发者和外部专家分别对 AI 工具可能对生产力产生的影响进行了预测。


核心结果既显著又出人意料:使用 AI 辅助的开发者完成任务的时间比未使用 AI 的开发者多出 19%。这一结果与参与者和专家在任务前的预期背道而驰,他们曾预测平均速度会提升约 40%。



作者将这种减速归因于多种因素,包括花费在提示词、评审 AI 生成的建议以及将输出与复杂代码库整合的时间。通过对 140 多个小时的屏幕录像进行分析,他们确定了导致减速的五个关键因素。这些因素可能抵消了代码生成带来的任何初始收益,揭示了感知生产力与实际生产力之间的显著脱节。



研究人员指出,这种现象是一种“感知差距”——AI 工具引入的消耗在当下可能极为微妙,难以察觉,但其累积效应却会显著减缓现实世界的产出效率。感知与实际结果之间的鲜明对比,凸显了该研究的重要性:AI 工具的评估不仅应基于用户的主观感受,更应依赖于严格的量化测量。


作者提醒不要过度泛化他们的发现。尽管该研究在特定环境中观察到了使用 AI 工具导致的可测量的减速现象,但他们强调,许多促成这种现象的因素是特定于他们研究设计的。在研究中,开发者们是在大型、成熟的开源代码库中工作,这些项目不仅规模庞大,而且有着严格的审查标准和复杂的内部逻辑,对于开发者来说可能并不完全熟悉。任务被限制在两小时单位时间内,限制了开发者的探索,所有 AI 交互都通过单一工具链进行。


重要的是,作者强调未来的系统可能会克服当前所面临的挑战。通过改进提示词技术、优化代理框架,以及针对特定领域的微调,即使在类似的研究环境中,也有可能实现真正的生产力提升。

随着 AI 能力的持续快速发展,作者将他们的发现框架化,不是对 AI 工具的有用性做出最终裁决,而是作为快速演变的领域的一个数据点,这个领域仍需要严格的现实世界评估。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


原文链接:

https://www.infoq.com/news/2025/07/ai-productivity/

2025-07-22 10:215193

评论

发布
暂无评论

产品经理训练营 - 第三次作业

Jophie

产品经理训练营

站出来打造真正开源的 Elasticsearch

亚马逊云科技 (Amazon Web Services)

驱动力读书笔记之二

张老蔫

28天写作

速成算法笔记,Github上已收获近60K+star!力压LeetCode只为面试

程序员 面试 算法

给予你关注产品的利益相关者,想想他们的问题,自己设定一些前提,做个简单的排序。

戎帅

K8S原生存储持续进化,Longhorn 1.1迎来ARM支持

Rancher

一带一路上的中国品牌!AWS 助力中国新能源车企走向世界!

亚马逊云科技 (Amazon Web Services)

产品经理训练营第三周作业 - 利益相关方(二)

Denny-xi

产品经理 产品经理训练营

第三周作业

Geek_72d5ab

今日姑苏佳景,俨然数字园林

脑极体

产品训练营·第三周作业

产品经理训练营

🍉 别再恐惧 IP 协议(万字长文 | 多图预警)

飞天小牛肉

面试 计算机网络 IP TCP/IP 2月春节不断更

话题讨论 | 工作之外的时间怎样分配

程序员架构进阶

时间分配 自我提升 话题讨论 2月春节不断更

极客时间产品经理训练营第 3 次作业

待注册

极客大学产品经理训练营

大数据两万年

大伟

大数据 GFS

产品训练营第三周作业-利益相关者关注的问题

jpcr987i

作业:游戏的利益相关者

嫉妒的耗子

利益相关者的问题

沈弋

入网指南:一文读懂你身边的网络

产品训练营 第三周作业

万顷湖天碧

产品训练营

架构师训练营第五周作业 - 学习总结

阿德儿

第三周作业-相关方分析

Au revoir

Elastic开源协议修改限制用户,星环科技自研New Search青出于蓝

星环科技

集群迁移自由来啦!4步将Rancher迁移至任意K8S发行版

Rancher

学计算机的都是傻子?《打工人的点点思考》

谙忆

产品经理训练营 Week3 作业

Mai

5G专网是个大西瓜(一):价值之问

脑极体

产品手记--2

曦语

《期权合同》常见的一个大坑,99%中招 | 视频号28天(26)

赵新龙

28天写作

产品经理第三周作业

朱琴

作业 - 第二章 产品思维和产品意识 (二)

hao hao

研究显示:AI编程工具在经验丰富的开发者手中表现未达预期_AI&大模型_InfoQ精选文章