写点什么

Google 发布针对构建错误的研究洞见

  • 2014-07-10
  • 本文字数:1838 字

    阅读完需:约 6 分钟

Google 的工程师们最近发布了一份研究论文,针对过去九个月中,Google 内部数以千计的开发者所生成的两千六百万份构建进行了实证研究,并给出了一些洞见。这份论文介绍了构建工作流,并分析了失败频率和编译器错误类型,以及开发者们解决这些错误所做的努力。论文作者们表示,研究结果所引申出的洞见,能帮助我们理解构建过程在大型组织机构中如何发挥作用,以及如何更有效地为开发者们提供支持。

论文作者们认为,研究过程中采用了描绘业界程序员与其编译器和构建工具如何交互的方法,使得该研究“非常新奇”。此外,他们强调了构建过程的重要性,认为它是“编辑 - 编译 - 调试”循环中的核心步骤:

缓慢的编译可能会让程序员被其他任务分心或是丢失当前工作的上下文 […] 任何延误都会放大程序员决定下一步要执行的变更,与查看该变更效果之间的间隔。确保构建过程快速,并了解何时以及为何失败,是提高程序员生产力的关键部分。

研究者们对以下四方面指标的分析,并试着回答一些问题:

  • 每个开发者执行的构建数量。
  • 构建失败率。
  • 每个错误类型实际发生的错误数量。
  • 开发者解决错误所花费的时间。

构建失败的情况有多频繁?

构建失败率的分析结果显示,“失败情况接近正态分布。其中,C++ 构建失败的中位百分比(38.4%)高于 Java(28.5%)。”研究者们将不同语言之间的差异,归结于(至少部分程度上):大部分 JAVA 开发者能够从他们使用的 IDE 所提供的内建的检查中获益。

“失败率极低或极高的开发者都很少见,”而且这两种类型的开发者似乎都不是某一特定语言或项目的常规参与者(临时使用该语言或参与该项目)。

对于构建数量与构建失败率之间,这次的研究并没有发现强相关现象。因此,或许能够排除这样的假设:构建更频繁的开发者可能会拥有更高的失败率。

而对于开发者经验和构建失败率之间,研究甚至没有发现相关性,或许某种程度上“这也许是因为很难精确地描绘经验或专业度。”

构建为何会失败?

论文中列出了许多构建错误,并对其发生频率进行了测量,如图 1 所示(点击查看大图)。

对于列出的这些错误,该论文将其进一步划分为五大类:依赖性、类型不匹配、语法、语义和其他。错误的数量在这五大类型中的分布如图 2 所示。

对 C++(52.68%)和 Java(64.71%)来说,依赖相关的错误都是最常见错误。而语法方面的错误,C++ 多于 Java。对此,论文作者同样认为,这是由于 Java 开发者能够“享受到”更强大的 IDE 所致。

解决构建失败的问题需要多久?

总的来说,这次的研究发现,解决构建错误的中位时间分别是 5 分钟(C++)和 12 分钟(Java)。

对于不同错误类型来说,这两个数字可能会有数量级的差异,但平均来说,C++ 解决时间要少于 Java——不过,部分 C++ 构建错误的解决时间的中位数要高于 Java,因为它们更难以解决。

在修订错误之前的构建尝试方面,无论 Java 还是 C++,面对 25 个最常见的错误时,75% 的构建错误在最多两次构建中就得以解决了。

调查结果与启发

这项研究最主要的启示,作者认为包括以下方面:

  • 编程语言无关,90% 的构建失败分布在大约 10% 的错误类型中。
  • 依赖性错误最常出现。
  • 平均来说,修复一个构建错误需要一次构建迭代,而大部分错误可以在两次构建迭代中得以解决。

作者们认为研究结果对 IT 从业者和工具开发者来说都很有价值。

< 引文 > 对于 IT 从业者来说,该研究提供了一套手段,用来识别在哪些领域中,额外的专业知识、工具使用或开发行为(例如减少依赖)能够带来最大的好处。

另一方面,“更好的能够解决依赖性错误的工具,将带来最大的潜在回报”。类似地,对错误信息和类型所做的定量分析,能够帮助编译器团队识别出,需要重新审视哪些错误信息,以便使其对开发者而言更有意义。

最后,希望大家能够意识到,与任何其他研究报告一样,这份研究也有其局限性。论文的作者们给出了以下可能影响其有效性的因素:

  • 该研究仅在一家公司内部展开,因此受限于特定的流程、制约因素、资源和工具。不过,该研究覆盖的构建、开发者和涉及系统的数量量级,为社区提供了宝贵的基线。
  • 该研究专注于 C++ 和 Java 两门编程语言。
  • 最后,与以下因素有关的抉择,都可能会影响研究结果的适用性。这些因素包括数据采集、错误分级、将错误映射到分类方法(归类),以及为了消除干扰而对数据做的裁剪。

这项研究由 Google 工程师 Caitlin Sadowski、Edward Aftandilian 和 Robert Bowdidge,与香港大学研究员 Hyunmin Seo、Nebraska 大学研究员 Sebastian Elbaum 共同完成。

查看英文原文: Google’s Study Provides Insights into Programmers’ Build Errors

2014-07-10 12:051608
用户头像

发布了 256 篇内容, 共 87.8 次阅读, 收获喜欢 10 次。

关注

评论

发布
暂无评论
发现更多内容

抓包分析RST信号

蓝胖子的编程梦

TCP Wireshark tcpdump RST 报文 Connection reset

喜讯 | 华秋电子荣获证券时报年度高成长企业

华秋电子

科兴未来|2023年扬中高层次人才创新创业大赛

科兴未来News

教培行业的“智能GPT私教”?WorkPlusAI助理帮助教培机构实现十倍人效!

BeeWorks

3 个技巧,让你像技术专家一样解决编码问题

LigaAI

程序人生 技术专家 技术人成长 问题分析及解决 企业号 6 月 PK 榜

Java代码性能测试实战之ContiPerf

javalover123

单元测试 性能测试 压测 JUnit Java'

【零售电商系列】走进亚马逊之自建仓储&物流

小诚信驿站

6 月 优质更文活动

DevEco创建项目时的错误解决

路北路陈

6 月 优质更文活动

直播回顾 | 一体化智能可观测平台如何保障电商节大促

博睿数据

可观测性 智能运维 博睿数据 618 电商行业

深度学习应用篇-自然语言处理-命名实体识别[9]:BiLSTM+CRF实现命名实体识别、实体、关系、属性抽取实战项目合集(含智能标注)

汀丶人工智能

人工智能 自然语言处理 深度学习 命名实体识别 6 月 优质更文活动

精耕丝路,智胜全球 | 新华三助力中企跑好“出海”赛道

新消费日报

对线面试官-线程池(四)

派大星

Java 面试题

平台即产品:数字化转型的全新驱动力

SEAL安全

平台工程 平台即产品

Web网页端IM产品RainbowChat-Web的v5.0版已发布

JackJiang

网络编程 即时通讯 IM

NFTScan | 06.05~06.11 NFT 市场热点汇总

NFT Research

NFT 热点

赋能矿山 | KaiwuDB 智慧矿山解决方案

KaiwuDB

解决方案 智慧矿山 KaiwuDB

数据分析:电子商务需要关注的重要指标有哪些?

搞大屏的小北

电子商务 销售指标

科兴未来|2023”福地句才”海外人才创业大赛

科兴未来News

“敏捷教练进阶课程”7月22-23日 ·A-CSM认证在线周末班【提前报名特惠】CST导师亲授

ShineScrum

敏捷教练

“数字创新产品课程”7月29-30日 · CSPO认证周末班【提前报名特惠】CST导师亲授

ShineScrum

Win服务器图床配置

路北路陈

6 月 优质更文活动

从分布式到微服务解密“架构”原理与实战笔记

小小怪下士

Java 程序员 分布式 微服务

千万级数据的可视化交互展示:Vue.js 技术解析

xfgg

Vue eCharts 6 月 优质更文活动

深度学习应用篇-自然语言处理[10]:N-Gram、SimCSE介绍,更多技术:数据增强、智能标注、多分类算法、文本信息抽取、多模态信息抽取、模型压缩算法等

汀丶人工智能

人工智能 自然语言处理 深度学习 命名实体识别 6 月 优质更文活动

通过技术变革,推动全面预算管理前行

智达方通

全面预算管理

分享几款 Mac 上非常好用的的免费软件

搞大屏的小北

数据可视化 数据库工具 截图软件 视屏转 gif 视频号下载

数据可视化设计四大原则透析

搞大屏的小北

数据可视化 设计要素 大屏设计

相约未名湖畔,百度商业AI技术创新大赛携手北大学子共探AI发展

百度Geek说

人工智能 百度 企业号 6 月 PK 榜

智慧生活垃圾焚烧发电厂Web3D可视化平台

2D3D前端可视化开发

物联网 数字孪生 三维可视化 工业组态 智慧垃圾焚烧发电厂

电路板电镀中4种特殊的电镀方法

华秋PCB

经验 电路板 焊接 PCB板 电镀

今年LED显示屏市场趋势

Dylan

商业 广告 娱乐 数字化 LED显示屏

Google发布针对构建错误的研究洞见_Java_Sergio De Simone_InfoQ精选文章