阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

来自谷歌的开发心得:所有 SQL 和代码,都没必要藏着掖着

  • 2022-02-18
  • 本文字数:2973 字

    阅读完需:约 10 分钟

来自谷歌的开发心得:所有SQL和代码,都没必要藏着掖着

至少从工程技术的角度看,你的项目绝没有想象中那么“见不得光”。


谷歌在代码管理上很有特色,他们基于“主干”进行开发,并且将 90% 以上的代码放在名叫 Piper 的单一代码仓库中,由来自世界各国数十个办事处的数万名软件开发人员共享。对于那些开源的、需要外部协作的项目,代码才放在版本管理软件 Git 里,主要是 Android 项目和 Chrome 项目。


整个仓库采用树状结构,每个团队有自己的目录,目录路径就是代码的命名空间。每个目录都有负责人(owner),负责批准该目录的文件变动。


这种方法已经在谷歌运行了 20 年以上。2015 年,谷歌的这个代码库就包含了大约十亿个文件,并且具有约 3500 万次提交的历史。代码一般提交到主干的头部,保证所有用户看到的都是同一份代码的最新版本,支持文件级别的权限控制,99% 的代码对所有用户可见。只有少部分重要的配置文件和机密的关键业务,设有访问限制。所有的读写都有日志,管理员能够查到谁读过这个文件。


与给代码制定各种访问权限的管理方式相比,谷歌的方法带来的好处是很明显的:任何人都可以浏览和使用全公司的代码,大大促进了代码的共享和复用;具有统一的版本和路径,不存在找不到文件的最新版本这样的问题;每次代码变动,很容易撤销或者用预提交测试它所造成的影响…


就连 SQL 的管理,谷歌也在一定程度上遵循了这些原则。本文作者是一名数据工程师,给谷歌当了两年的供应商,在期间发现谷歌的数据工程师对待 SQL 的态度,跟软件工程师们对待代码的态度非常相似。他认为这种态度非常重要,无论大小企业都值得在数据战略中采取这样的心态。我们将作者的文章翻译了出来,通过他的文章,我们将一同了解谷歌这种把 SQL 当成代码的态度有哪些助益,又能给体量较小的组织机构带来哪些启示。


SQL 只是种查询语言,谷歌为什么要把它看作代码?


跟面向对象代码一样,SQL 编写起来也相当耗时、调试难度不低、内容难以理解(不利于版本控制),而且高度强调可维护性。单从谷歌数据工程部门自身的情况来讲,SQL 完全可以用来创建数据管道,而数据管道又特别强调易调试、易修复。考虑到这些因素,代码集中度越高、数据战略的落地实践才能越顺畅。


所以把 SQL 看作代码,意味着我们可以把代码管理工具引入流程,轻松了解由谁负责特定变更或者维护 SQL 脚本、并持续跟踪同一作者在其他相关查询中的调整。如此一来,我们就能快速找到失败提交,恢复变更内容或者应用必要修复。在提交 SQL 代码之后,这部分代码可以被立即部署到开发环境当中。接下来就是运行开发管道,即时识别并修复故障。


另外,我们还会定期发布测试环境,通过升级保证代码能在生产版本上跑通。在测试成功之后,新旧两个生产版本之间提交的 SQL 代码才能正式启用,把出问题的几率控制在最低水平。


小公司该学习什么?


审视自己的软件工程文化,把谷歌这种更为成熟的文化理念设为标杆,体会并试用他们选择的工具,包括 Git、IDE 等。我们应该把所有代码都明确列入索引位置,花点时间将专用脚本转化成全局脚本,消除视图、物化视图、存储过程等一切不必要的元素。


谷歌是怎么管理 SQL 代码的?


谷歌把几乎所有代码都放在统一的集中代码存储库里。所以在需要对 SQL 做出变更时,或者需要创建新的脚本时,谷歌的工程师就建立一份相应的变更清单——在本质上类似于 PR。之后,变更流程需要接受测试并由其他工程师负责核准。核准顺利通过,作者才可以把代码变更提交至代码存储库。


虽然这种变更控制形式在企业中相当常见,但谷歌的一大特色在于高度强调代码格式的重要性。我本人以往对代码格式不太重视,但切身经历让我意识到高质量的代码格式确实能大大降低理解和调试难度、也有助于缩短其他作者在代码修改上耗费的时间。谷歌特别重视代码格式,甚至设立了一套自动化机制、直接拒收不符合编码标准的代码。


小公司该学习什么?


选择一套代码存储库,然后坚持以它为中心开展后续工作。在理想情况下,这套存储库应该在各工程团队间共享,至少也得保证把所有 SQL 代码集中进来。其中应该涵盖全部数据功能,包括数据工程、分析、商务智能等等。


另外,一定要推行代码格式标准化。目前市面上有不少开源代码格式标准化工具,它们使用难度不高,而且能极大提升代码的可读性与可维护性。花点时间,使用现有格式化工具或者内部的原研工具把原有代码梳理一遍,同时保证后续提交的一切代码都必须符合格式标准。几天、最多几个礼拜,数据工程师们就能适应这套新的标准,并让公司内的 SQL 代码在可读性、编写质量和可理解性方面都上一个台阶。


版本控制 + 多种测试环境 = 节约时间


代码变更无处不在,如果没有版本控制加以约束,我们将很难用回滚来补救意外错误。万一提交的代码破坏了管道、产生了预期之外的值或者跑不通,那我们就得利用版本控制恢复至上一个正常状态。


谷歌的代码集成原则也遵循这样的思路。哪怕变更内容再离谱(真的,有时候提交的代码就是这么离谱),拥有良好结构的测试环境也能从容消化,不致对正常业务造成干扰。如此一来,SQL 变更对于开发环境的影响就能直接体现,帮助工程师们快速发现故障。


当然,也有极少数代码在开发环境中不会立即造成故障,但在生产环境里却问题频发。造成这种状况的因素多种多样,所以我们需要在测试体系中引入单独的预生产环境。


谷歌使用环境变量来管理多种测试环境,这些变量可以通过解释层被轻松注入至表名当中。


小公司该学习什么?


至少要建立一套开发环境,同时尽可能扩大代码测试所涉及的数据基础设施范围,这样才能把出现故障的几率降至最低。DBT 等免费开源工具就通过抽象层显著降低了测试难度,其中所有表都有两个版本,一个是开发版、一个是生产版。这样在每日、每周乃至每月的发布计划中,我们就能安心把上次发布计划之后提交的所有代码都直接提升至生产环境。


广泛的代码访问能力


正所谓“成也萧何、败也萧何”,谷歌把几乎所有代码塞进单一代码存储库的作法,导致我们很难分清某一产品究竟归谁所有、又有哪些人在使用。例如,如果不能广泛访问这套集中代码库,软件工程师在更新生产级应用程序时就很难理解变更会引发哪些下游影响。而在获得广泛访问能力后,他们可以轻松搜索到对当前应用程序构成依赖的脚本、查询操作及其他应用程序,并通知相应工程师开展变更协同。


我知道,很多企业总想用代码保密的方式把不同开发环节隔离开来。没错,某些高度敏感的项目代码库确实不该随意开放,但这类项目不多、而且跟其他项目间的联系也不会太紧密。既然谷歌这样规模庞大的企业巨头,在建立代码架构时都愿意充分发挥信任的力量,那其他小公司真的没必要总是藏着掖着。


小公司该学习什么?


在代码库和存储库的结构设计中多多引入信任与沟通机制。至少从工程技术的角度看,你的项目绝没有想象中那么“见不得光”。毕竟如果你连团队中的工程师都不能信任,那这家企业还能正常运营吗?总之,请主动在业务流程中的软件工程与数据工程之间打通边界、鼓励协作。也只有这样,我们才能在代码在生产环境中落地之前,抢先一步解决由变更引发的负面下游影响。


原文链接:


https://blog.devgenius.io/why-google-treats-sql-like-code-and-you-should-too-53f97925037e


今日好文推荐


独家专访阿里云存储负责人吴结生:我经历的三个重大决策


大学辍学的我,如何在质疑中成为微软专业找 bug 的赏金猎人


Android 13来了,它真的平庸又鸡肋吗?


以架构视角解读和落实银行数字化转型的两份重磅指导文件


2022-02-18 18:3410092

评论 1 条评论

发布
用户头像
Google 的代码管理是使用的 Git 没错,但是代码的审查使用的是 Gerrit。
2022-02-21 09:22
回复
没有更多了
发现更多内容

技术文档指南:版本说明、网站文案、FAQ、案例研究与内容优化

小万哥

程序人生 软件工程 后端开发 技术写作 文档指南

商智C店H5性能优化实战

京东科技开发者

前端

详述 IntelliJ IDEA 遇到 java -source 1.3 中不支持某某操作的解决方法

南屿

IntelliJ IDEA IntelliJ IDEA 2023最新 IntelliJ IDEA密钥

小程序如何帮助在线教育打造业务新引擎

Geek_2305a8

软件开发

Geek_8da502

2024你好!

鲸品堂

数字孪生开发:基础知识、类型、优势和成本

3D建模设计

3D数字孪生场景编辑器 3D场布工具 3D场景搭建

SD-WAN组网方式详解

Ogcloud

网络 SD-WAN 组网 组网网络

iOS应用如何签名?使用xcode签名的办法和工具 附xcode14下载安装包

南屿

Xcode Mac版 应用签名 Xcode签名

2024-01-03:用go语言,给你两个长度为 n 下标从 0 开始的整数数组 cost 和 time, 分别表示给 n 堵不同的墙刷油漆需要的开销和时间。你有两名油漆匠, 一位需要 付费 的油漆匠

福大大架构师每日一题

福大大架构师每日一题

SVN客户端 smartsvn mac破解版 附许可文件 兼容M/intel

南屿

svn Mac软件 SmartSVN mac破解版 SmartSVN下载

在智能制造中使用数字孪生的优势

3D建模设计

3D数字孪生 3D数字孪生场景编辑器 3D场布工具 3D场景搭建

macOS 14 Sonoma(最新MacOS系统) pkg完整安装包 14.2正式版

南屿

苹果系统下载 macOS 14 Sonoma

苹果Mac版交互式原型设计 Axure RP 8 汉化激活版

mac大玩家j

Mac软件 原型设计工具 交互原型设计

强大的数据库管理工具:DBeaver破解版

南屿

数据库 DBeaverEE 破解软件

为何 DevOps 会给开发人员带来压力和倦怠?

不在线第一只蜗牛

架构 DevOps 开发

云组态是什么?云组态软件特点及应用

2D3D前端可视化开发

物联网 可视化 组态软件 工业自动化 云组态

好用的视频下载和转换器:YT Saver 中文直装版

胖墩儿不胖y

视频处理 Mac软件 视频处理工具

支持M/Intel mac的Netflix 奈飞客户端 v2.13.0激活版

南屿

Netflix Mac激活版 macOS 播放客户端 网飞

简单两步,轻松卸载AlDente Pro,来围观~~

南屿

AlDente Pro破解版 AlDente Pro mac mac电池保护 AlDente Pro卸载 苹果电池助手

智能工厂:为制造业的数字化转型奠定基础

3D建模设计

3D场景建模 3D数字孪生场景编辑器 3D场布工具

数字孪生技术详解

3D建模设计

3D数字孪生场景编辑器 3D场布工具

什么是制造业中的数字孪生?

3D建模设计

3D场景应用 3D场景建模 3D数字孪生场景编辑器 3D场布工具

使用 Parallels Desktop 彻底改变您的开发和测试工作流程

南屿

Mac虚拟机 Parallels Desktop 18破解 Parallels Desktop 19

营销创意素材如何秒级智能生成?即时创意白皮书来了!

京东科技开发者

程序员会不会被人工智能取代?

ZA技术社区

程序员 #人工智能

京东商品评论数据接口(JD.item_review)丨京东API接口

tbapi

京东商品评论数据接口 京东商品评价接口 京东商品评论API 京东商品评价API 京东评论API

Microsoft 365 (原office365) Mac版 v16.80正式破解版下载

南屿

Office Microsoft 365 office许可证 office365破解版

JAVA开发工具Eclipse和MyEclipse

小魏写代码

Beyond Compare4 for Mac怎么使用?Beyond Compare功能特点详解

南屿

Mac软件 Beyond Compare 4 注册版 Beyond Compare注册码 文件夹比较工具

微店商品详情数据接口(micro.item_get)丨微店API接口

tbapi

微店API接口 微店商品详情API接口 微店商品数据接口

来自谷歌的开发心得:所有SQL和代码,都没必要藏着掖着_语言 & 开发_Galen B_InfoQ精选文章