首届AICon深圳正式启动|AI实践哪家强?来 AICon,解锁技术前沿,探寻产业新机! 了解详情
写点什么

研究显示:AI 编程工具在经验丰富的开发者手中表现未达预期

作者:Matt Foster

  • 2025-07-22
    北京
  • 本文字数:1310 字

    阅读完需:约 4 分钟

大小:667.56K时长:03:47
研究显示:AI编程工具在经验丰富的开发者手中表现未达预期

一项最新的研究对 AI 工具能够加速软件开发的普遍认知提出了挑战。METR的研究人员针对经验丰富的开源开发者开展了一项随机对照试验,这些开发者使用了 Claude 3.5 和 Cursor Pro 等 AI 增强型开发工具。研究结果显示,与预期相反,AI 辅助编程使得任务完成时间延长了 19%,尽管开发者们认为他们工作得更快。这一发现揭示了 AI 所承诺的潜在效益与实际影响之间可能存在的显著差距。


为了在真实环境中评估 AI 的实际影响,研究人员设计了一个基于生产级环境的随机对照试验(RCT)。他们没有使用合成基准测试,而是邀请了经验丰富的开发者,在成熟的开源代码库中完成真实的开发任务。


参与者是 16 位专业开发者,他们在各自被分配的项目中平均拥有 5 年的开发经验。这些项目均为成熟且知名的开源代码库,包含了来自开发者自身代码库的真实、“实战”问题。这些代码库规模庞大,代码行数超过 110 万行。


在 246 个任务中,每位开发者被随机分配到最多两小时的会话,其中一部分开发者可以使用 AI 辅助,而另一部分则被限制在不使用 AI 的环境中。能够使用 AI 的开发者使用的是集成了 Claude 3.5/3.7 Sonnet 支持的代码编辑器 Cursor Pro,而对照组则明确被禁止使用任何 AI 工具。


该研究综合收集了客观与主观两方面的指标,涵盖任务完成时间、代码质量以及开发者的主观感受。在每个任务开始前和结束后,开发者和外部专家分别对 AI 工具可能对生产力产生的影响进行了预测。


核心结果既显著又出人意料:使用 AI 辅助的开发者完成任务的时间比未使用 AI 的开发者多出 19%。这一结果与参与者和专家在任务前的预期背道而驰,他们曾预测平均速度会提升约 40%。



作者将这种减速归因于多种因素,包括花费在提示词、评审 AI 生成的建议以及将输出与复杂代码库整合的时间。通过对 140 多个小时的屏幕录像进行分析,他们确定了导致减速的五个关键因素。这些因素可能抵消了代码生成带来的任何初始收益,揭示了感知生产力与实际生产力之间的显著脱节。



研究人员指出,这种现象是一种“感知差距”——AI 工具引入的消耗在当下可能极为微妙,难以察觉,但其累积效应却会显著减缓现实世界的产出效率。感知与实际结果之间的鲜明对比,凸显了该研究的重要性:AI 工具的评估不仅应基于用户的主观感受,更应依赖于严格的量化测量。


作者提醒不要过度泛化他们的发现。尽管该研究在特定环境中观察到了使用 AI 工具导致的可测量的减速现象,但他们强调,许多促成这种现象的因素是特定于他们研究设计的。在研究中,开发者们是在大型、成熟的开源代码库中工作,这些项目不仅规模庞大,而且有着严格的审查标准和复杂的内部逻辑,对于开发者来说可能并不完全熟悉。任务被限制在两小时单位时间内,限制了开发者的探索,所有 AI 交互都通过单一工具链进行。


重要的是,作者强调未来的系统可能会克服当前所面临的挑战。通过改进提示词技术、优化代理框架,以及针对特定领域的微调,即使在类似的研究环境中,也有可能实现真正的生产力提升。

随着 AI 能力的持续快速发展,作者将他们的发现框架化,不是对 AI 工具的有用性做出最终裁决,而是作为快速演变的领域的一个数据点,这个领域仍需要严格的现实世界评估。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


原文链接:

https://www.infoq.com/news/2025/07/ai-productivity/

2025-07-22 10:213

评论

发布
暂无评论

论亚马逊QLDB与腾讯TDSQL架构与功能

腾讯云数据库

数据库 tdsql

开便利店可以实现财富自由吗?

石头IT视角

对Python爬虫编写者充满诱惑的网站,《可爱图片网》,瞧人这网站名字起的

梦想橡皮擦

9月日更

mydumper备份工具介绍与使用

Simon

MySQL

ECMAScript 2021(ES12)新特性简介

程序那些事

JavaScript ecmascript 程序那些事 ES12

37 手游基于 Flink CDC + Hudi 湖仓一体方案实践

Apache Flink

大数据 flink

为什么说腾讯云TDSQL是金融行业的“杀手锏”级应用?

腾讯云数据库

数据库 tdsql

阿里巴巴Java方向面试题汇总(含答案),为什么数据库会丢失数据

Java 程序员 后端

为什么不推荐Python初学者直接看项目源码

Felix

Python 编程 开发 Programing 阅读代码

阿里巴巴发布“限量版”Java零基础宝典,38岁的中年失业者怎么活下去

Java 程序员 后端

FunTester框架Redis性能测试之list操作

FunTester

redis 性能测试 测试框架 压力测试 FunTester

Percolator模型及其在TiKV中的实现

vivo互联网技术

数据库 Percolator 分布式,

OSCAR纪实:华为与开源生态伙伴协力同行,共创未来

科技热闻

阿里巴巴发布“限量版”Java零基础宝典,万字Java技术类校招面试题汇总

Java 程序员 后端

Linux用户密码管理

在即

9月日更

一部好看过武侠小说的热血互联网史!

博文视点Broadview

腾讯云分布式数据库TDSQL再获认可

腾讯云数据库

数据库 tdsql

阿里,快手,拼多多等7家大厂Java面试真题,Java面试题高级

Java 程序员 后端

CSS 轻松制作 SVG 动画

devpoint

css3 SVG 9月日更

测试开发之前端篇-CSS层叠式样式表

禅道项目管理

CSS html

与springcloud整合的框架源码读取入口

Java 编程 架构 微服务

揭秘TDSQL-A分布式执行框架:解放OLAP关联分析查询性能瓶颈

腾讯云数据库

数据库 tdsql

汽车智能座舱中 显示屏市场战略趋势分析 上篇

SOA开发者

软件定义汽车

阿里,快手,拼多多等7家大厂Java面试真题,Java开发面经分享

Java 程序员 后端

干货帖 | TDSQL-A核心架构揭秘

腾讯云数据库

数据库 tdsql

TDSQL-C 数据库架构

腾讯云数据库

数据库 tdsql

深入解读TDSQL-C的内核关键技术

腾讯云数据库

数据库 tdsql

Shell:Lite OS在线调试工具知多少

华为云开发者联盟

Shell 操作系统 Lite OS 在线调试 命令函数

阿里,快手,拼多多等7家大厂Java面试真题,Java笔试题及答案详解

Java 程序员 后端

乘着汽车智能化的浪潮,“汽车人”的职业方向选择(三)

SOA开发者

软件定义汽车 车载控制单元

主机安全是什么意思?安全体检包含哪些方面?

行云管家

运维 服务器 主机 主机安全 安全体检

研究显示:AI编程工具在经验丰富的开发者手中表现未达预期_AI&大模型_InfoQ精选文章