10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

研究显示:AI 编程工具在经验丰富的开发者手中表现未达预期

作者:Matt Foster

  • 2025-07-22
    北京
  • 本文字数:1310 字

    阅读完需:约 4 分钟

大小:667.56K时长:03:47
研究显示:AI编程工具在经验丰富的开发者手中表现未达预期

一项最新的研究对 AI 工具能够加速软件开发的普遍认知提出了挑战。METR的研究人员针对经验丰富的开源开发者开展了一项随机对照试验,这些开发者使用了 Claude 3.5 和 Cursor Pro 等 AI 增强型开发工具。研究结果显示,与预期相反,AI 辅助编程使得任务完成时间延长了 19%,尽管开发者们认为他们工作得更快。这一发现揭示了 AI 所承诺的潜在效益与实际影响之间可能存在的显著差距。


为了在真实环境中评估 AI 的实际影响,研究人员设计了一个基于生产级环境的随机对照试验(RCT)。他们没有使用合成基准测试,而是邀请了经验丰富的开发者,在成熟的开源代码库中完成真实的开发任务。


参与者是 16 位专业开发者,他们在各自被分配的项目中平均拥有 5 年的开发经验。这些项目均为成熟且知名的开源代码库,包含了来自开发者自身代码库的真实、“实战”问题。这些代码库规模庞大,代码行数超过 110 万行。


在 246 个任务中,每位开发者被随机分配到最多两小时的会话,其中一部分开发者可以使用 AI 辅助,而另一部分则被限制在不使用 AI 的环境中。能够使用 AI 的开发者使用的是集成了 Claude 3.5/3.7 Sonnet 支持的代码编辑器 Cursor Pro,而对照组则明确被禁止使用任何 AI 工具。


该研究综合收集了客观与主观两方面的指标,涵盖任务完成时间、代码质量以及开发者的主观感受。在每个任务开始前和结束后,开发者和外部专家分别对 AI 工具可能对生产力产生的影响进行了预测。


核心结果既显著又出人意料:使用 AI 辅助的开发者完成任务的时间比未使用 AI 的开发者多出 19%。这一结果与参与者和专家在任务前的预期背道而驰,他们曾预测平均速度会提升约 40%。



作者将这种减速归因于多种因素,包括花费在提示词、评审 AI 生成的建议以及将输出与复杂代码库整合的时间。通过对 140 多个小时的屏幕录像进行分析,他们确定了导致减速的五个关键因素。这些因素可能抵消了代码生成带来的任何初始收益,揭示了感知生产力与实际生产力之间的显著脱节。



研究人员指出,这种现象是一种“感知差距”——AI 工具引入的消耗在当下可能极为微妙,难以察觉,但其累积效应却会显著减缓现实世界的产出效率。感知与实际结果之间的鲜明对比,凸显了该研究的重要性:AI 工具的评估不仅应基于用户的主观感受,更应依赖于严格的量化测量。


作者提醒不要过度泛化他们的发现。尽管该研究在特定环境中观察到了使用 AI 工具导致的可测量的减速现象,但他们强调,许多促成这种现象的因素是特定于他们研究设计的。在研究中,开发者们是在大型、成熟的开源代码库中工作,这些项目不仅规模庞大,而且有着严格的审查标准和复杂的内部逻辑,对于开发者来说可能并不完全熟悉。任务被限制在两小时单位时间内,限制了开发者的探索,所有 AI 交互都通过单一工具链进行。


重要的是,作者强调未来的系统可能会克服当前所面临的挑战。通过改进提示词技术、优化代理框架,以及针对特定领域的微调,即使在类似的研究环境中,也有可能实现真正的生产力提升。

随着 AI 能力的持续快速发展,作者将他们的发现框架化,不是对 AI 工具的有用性做出最终裁决,而是作为快速演变的领域的一个数据点,这个领域仍需要严格的现实世界评估。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


原文链接:

https://www.infoq.com/news/2025/07/ai-productivity/

2025-07-22 10:215237

评论

发布
暂无评论

交易所市值管理机器人搭建,项目方市值管理软件源码

fil挖矿官网有哪些?fil挖矿平台有哪些?

fil挖矿平台有哪些 fil挖矿官网有哪些

聊聊我在腾讯和字节工作感受

程序员鱼皮

Java 互联网 求职 IT 实习

猎杀时刻!疯狂狩猎大厂offer,阿里高工总结698页Spring学习笔记

Java 编程 架构 面试 架构师

【Takin应用日记】记一次TransmittableThreadLocal引起的业务异常

TakinTalks稳定性社区

高可用 性能压测 生产环境全链路压测 takin

2021年7月券商App行情刷新及交易体验评测报告

博睿数据

云服务器在市场变化下的技术突破,企业运维中的基础保障

九河云安全

一个完整的内网渗透是什么样子的

网络安全学海

网络安全 信息安全 网络 渗透测试 漏洞分析

博睿数据分布式手机真机监测+两大核心技术,轻松掌控短信服务质量与用户体验

博睿数据

Java变量使用小技巧~

Bob

Java 变量 8月日更

熬夜28天肝完这25W字的九大Java核心专题,连续拿下多个大厂offer

Java~~~

Java 架构 面试 JVM 架构师

架构实战营毕业总结

thewangzl

极客星球 | 应用开发的性能优化探索

MobTech袤博科技

性能

员工流动大难管理?织信低代码+人事管理系统轻松掌控员工档案信息

优秀

低代码

Hadoop生态系统Hive:SQL执行(一)

正向成长

hadoop hive

Aosp 之 Property

Qunar技术沙龙

android API properties 字典树 内存映射

DCS_FunTester分布式压测框架更新(二)

FunTester

分布式 性能测试 测试框架 测试开发 FunTester

先到先得!Alibaba最新出版的JDK源码剖析手册(究极奥义版)开源

Java 编程 jdk 面试 程序人生

写作 7 堂课——【7. 复盘式写作】

LeifChen

复盘 写作技巧 8月日更

清华大牛带领20位大厂专家耗时三年整理出这份2000页Java进阶指南

Java~~~

Java MySQL 架构 面试 微服务

极客星球 | Android SDK架构设计之路

MobTech袤博科技

架构 sdk andiod

小心这个陷阱:为什么总是你赔钱?

非著名程序员

认知提升 个人提升 投资理财 8月日更

趁着课余时间学点Python(十一)面向对象的理解(高潮)

ベ布小禅

8月日更

我看 JAVA 之 并发编程【四】线程安全与JMM

awen

Java JMM 线程安全

秀到起飞!LeetCode官方推出算法面试指导手册(代码版)限时开源

Java~~~

Java 架构 面试 算法 架构师

用区块链技术实现电力供给“三流合一”

CECBC

网络攻防学习笔记 Day103

穿过生命散发芬芳

态势感知 网络攻防 8月日更

让GitHub低头!这份阿里内部的10W字Java面试手册到底有多强?

Java~~~

Java spring 面试 微服务 JVM

嗨!你有一封来自百度世界大会的“情书”,818等你开启

百度大脑

人工智能

深耕城市治理场景,百度智能云联合慧联无限推内涝智能检测预警

百度大脑

人工智能 洪水

架构训练营 - 模块四 - 作业

姑射仙人

架构训练营

研究显示:AI编程工具在经验丰富的开发者手中表现未达预期_AI&大模型_InfoQ精选文章