即刻成为鸿蒙应用开发者,解锁职业发展新机遇!点击了解~ 了解详情
写点什么

为什么配置模式令人抓狂?尝试用编程语言来写吧

  • 2020-04-29
  • 本文字数:4317 字

    阅读完需:约 14 分钟

为什么配置模式令人抓狂?尝试用编程语言来写吧

本文将试着解释为什么大多数配置格式用起来都不太舒服,作者建议大家尝试使用一门真正的编程语言(例如,像 Python 这样的通用编程语言)来编写配置,通常这是一种可行的选择,且使用过程更感愉悦。


大多数现代配置格式都很糟糕

本节,我主要针对 JSON/YAML/TOML/ini 文件,这是我遇到过最常见的配置格式。


我们暂将这种配置称为常见配置(如果有更好的名字,欢迎在评论中留言,谢谢)。


大家可能遇到过如下情况:



例如,虽然 YAML 在理论上支持重用/引用配置(他们称之为),但有些软件(如Github Actions)却并不支持。通常,开发者无法重用配置的一部分,必须复制粘贴。


  • .gitconfig 使用一个自定义语法来合并这些配置

  • 不能包含任何逻辑


很多人认为这是一种积极的做法,但我认为,如果不能定义临时变量、辅助函数、替换字符串或连接列表,那就有点差劲。变通方法(如果有的话)通常也不好用,因为它们额外增加了认知开销。于是,出现了一批重新发明的编程语言:



此外,他们有自己的一套函数来处理变量。你得为此学习一门从来都未曾想过要学习的新语言。


  • 范围

  • 例如,在 Github 操作中有几个针对于env指令的自定义作用域。

  • 控制流

  • for 循环:构建矩阵和“排除”总是让人头疼不已

  • if 语句:例如,CircleCI 中的when

  • 无法被校验。可以校验配置语法本身(例如,检查 JSON 串的正确性),但无法做语义检查。这是因为在配置文件中没有逻辑。通常情况下,你必须编写一个辅助程序来检查配置,并在传递给程序之前调用。很少有程序会遇到这个问题,通常,使用简单的类型系统就可以发现程序中的细小错误。

  • YAML 的隐式转换和可移植性问题非常突出。这一点已经饱受非议,所以在此只提供一个相关链接,供感兴趣的读者自行了解:“YAML:可能没那么好


总结:我们在花时间学习没什么用处的语法,而不是在富有成效地完成工作

解决方法

当遇到这些问题时会出现什么情况呢?通常最终会使用一种“真正的”(即通用的、图灵完备的)编程语言来解决问题:


  • 编写一个过滤自定义注释语法的程序;

  • 编写一个合并配置或使用模板引擎的程序;

  • 编写一个“evaluate”配置的程序,在此过程中,常常需要为一门简单的函数式语言重新实现一个解释器

  • 编写一个校验配置的程序。


在大多数情况下,它就是类型检查的样板文件。你不仅要处理已解决的问题,而且得到的错误消息质量也不高,所有这些事情都会分散你在主要目标上的注意力。

使用一门真正的编程语言

其思想是用目标编程语言编写配置。这里我将使用 Python,但是,这一思想也适用于其他语言,只要足够动态即可(比如 Javascript、Ruby 等等)。这样,只需 import 或 evaluate 配置文件就可完成。


一个小例子:


config.py


from typing import NamedTupleclass Person(NamedTuple):    name: str    age: intPEOPLE = [    Person('Ann'  , 22),    Person('Roger', 15),    Person('Judy' , 49),]
复制代码


使用这个配置(如果你想知道为什么我使用 exec 而不是 import,请看看这个回复):


from pathlib import Pathconfig = {}exec(Path('config.py').read_text(), config)people = config['PEOPLE']print(people)
复制代码


[Person(name='Ann', age=22), Person(name='Roger', age=15), Person(name='Judy', age=49)]
复制代码


我觉得它很简洁。让我们看看如何解决上文所述问题:


  • 注释:很明显,不需赘述

  • 包含:很简单,使用 import


你甚至可以 import 正在配置的包,可以针对配置定义一个 DSL,它将在配置文件中进行导入和使用。


逻辑


你可以使用语言的语法和库。例如,单独使用像pathlib之类的可以节省大量重复配置。


当然,随意乱用可能会让人难以理解。就我个人而言,我宁愿接受语言被滥用,也不愿受限制。


校验


你可以将逻辑校验保留在配置中,以便在加载时进行检查。成熟的静态分析工具(如 JS flow、eslint、pylint、mypy)对此可以有所帮助。

缺点

互操作性


如果程序是用 Python 编写的,那没什么问题。但如果不是,或者稍后将以另一种语言(比如 C++之类的编译语言)重写它,该怎么办呢?


将来,软件是否无需解释器即可运行?现代的 FFI 很是繁琐,链接配置将相当棘手。


我们特别以 Python 为例,大多数现代 OS 发行版中都有它。那么,你可以按以下方式来做:


  1. 使 Python 配置可执行

  2. 在 main() 函数中构建配置,转换为 JSON 串并输出到 stdout


由于 Python 是动态的,所以无需样板文件即可执行此步骤。


  1. 在代码中执行 Python 配置(比如,使用 popen()),读取原生的 JSON 串并予以处理。仍然需要手动在代码中将配置反序列化,但这至少不像只使用 JSON 并手动编辑它那么糟。


通用编程语言很难推理


这多少有点主观。就我个人而言,我更有可能被一个过于冗长的普通文本配置搞得不知所措,我一直都更喜欢简洁的 DSL。其中一个重要因素是代码风格:我确信你可以使配置文件在几乎任何编程语言中都具有可读性,甚至根本不熟悉该语言的人也能够看得懂,最大的问题可能是安全性和终止检查。


安全性


例如,如果配置可以执行任意代码,那么它可能会窃取密码、格式化硬盘等。


如果配置是由你不信任的第三方提供的,那么,我认为普通文本配置更安全。然而,通常并非如此,一般都是用户自己控制自己的配置。


此外,也可以通过沙箱解决这一问题,是否值得这样做取决于项目的性质,但是如果你使用像 CI executor 之类的东西,无论如何都需要它。


另外要注意,使用普通文本的配置格式不一定能躲过这些麻烦。参见“YAML:一般并不安全”。


终止检查


即使不关心安全性,也不希望配置会挂起程序。我个人从来没有遇到过这样的问题,但这里有一些潜在的解决方法可供参考:


  • 为加载配置指定显式的超时时间

  • 有些语言能够有所帮助,例如,Bazel Skylark


有人知道在通用语言中检查终止的保守的静态分析工具的例子吗?注意,使用普通文本配置并不意味着它不会无限循环,参阅"Accidentally Turing complete".


配置会花很多时间去 evaluate,虽然技术上需要在有限的时间内完成,请参阅"Why Dhall advertises the absence of Turing-completeness"。虽然Ackermann函数是一个人为设计的例子,但它表明如果你真的关心恶意输入,那么无论如何都要做沙箱处理。

为什么是 Python?

我发现出于以下原因,大家都特别喜欢用 Python 来编写配置文件:


  • 几乎所有的现代操作系统中都有 Python

  • 大家认为 Python 语法很简单(不是件坏事),所以 Python 配置很有可能不会比普通配置更难理解

  • 数据类、函数和生成器构成了精简的 DSL 的基础

  • 类型标注同时用作文档和校验


其实,你可以在大多数现代编程语言中获得类似的愉快体验(只要它们足够动态)。

还有谁在做这件事?

一些项目允许用代码作为配置:


  • Webpack,Web 模块打包器,使用 Javascript 作为配置

  • setuptools,安装 Python 包的标准方法


允许同时使用 setup.cfg 和 setup.py 文件。这样的话,如果你不能以普通文本配置完成你的需求,那么可以在 setup.py 中进行调整,从而使你可以在声明式和灵活性之间取得平衡。



使用一个python文件配置输出。


  • Emacs:大家都知道使用 Elisp 进行它的配置


虽然我一点也不喜欢 Elisp,但它确实使 Emacs 非常灵活,可以实现你想要的任何配置。另一方面,如果你曾经读过其他人的 Emacs 设置,那么你可以发现,当你允许使用通用语言进行配置时,有些事情可能很难操控。



有些语言是专门为配置而设计的:



虽然为了确保终止检查和确定性而特意对 Bazel 进行了限制,但是配置 Bazel 比我使用过的任何其他构建系统都要愉快得多。


  • Meson构建系统:借鉴 Python 的语法

  • Nix:专门为 Nix 包管理器设计的语言


虽然弄一门全新的语言让人感觉有点大材小用,但是仍然好过用普通文本来进行配置。


  • Dhall:专门为配置文件设计的语言


Dhall 宣称自己是“JSON +函数+类型+导入”。的确,它看起来很棒,解决了我上文列出的大部分问题。



它们之间的具体区别,请参阅其他配置语言间的比较


这种语言的缺点是还没有被广泛使用。如果你没有绑定目标语言,那么需要二次解析 JSON。


但是,至少它能使你可以愉快地编写配置。


然而,如果你的程序是用 Javascript 编写的,并且不与其他语言交互,那么为什么不直接用 Javascript 编写配置呢?

如果一个也不选要怎么办?

在使用普通文本配置的时候,我找到了一些减少那些问题的方法:


尽量少写配置文件


这通常适用于 CI 流水线配置(例如 Gitlab、Circle、Github Actions)或 Dockerfiles。通常情况下,这样的配置使用了大量的 shell 命令,如果不逐行复制,就不可能在本地运行。


是的,的确也有调试的方法,但是它们的反馈周期非常慢。


  • 使用更适合设置本地虚拟环境的工具,如tox-dev/tox

  • 更多地采用 helper shell 脚本,并从你的流水线中调用它们


这多少有点令人沮丧,因为它引入了间接而分散的代码。但是,同时它也是一个优势,你可以剥离(例如 shellcheck)你的流水线脚本,使它更容易在本地运行。有时,如果你的流水线很短,你可以视情况做出自己的判断。让 CI 只负责为你设置 VM/容器、缓存依赖项和发布构件。


生成而不是手动编写


这样做的缺点是,相比于手工编辑而言,生成的配置可能会更分散。


你可以添加警告注释,提醒该配置是自动生成的,并附上生成器的链接,同时将配置文件设置为只读,以防止有人手动编辑。


此外,如果你正在实行 CI,可以将一致性检查作为流水线本身的一部分。

参考资料


总体上,我同意这一观点,但是仍然有些情况是不适用于标记的。


它也容易泄露机密(密钥、令牌、密码)——无论是在你的 shell 历史记录中还是通过 ps 都可以看到。


  • Xmonad:配置文件可执行文件


一个有趣的方法,但不一定总是可行的,例如,你可能没有安装编译器。


  • Mage:以 Go 编写用于 makefile 的工具

  • Dhall wiki:可编程的配置文件

  • 扩展语言的演变:Lua 的历史——显然 Lua 已经开始成为配置语言

  • Cue:定义、生成和验证数据的语言


我在网站上找了很久才找到一个代码例子,就在这里


最后的问题

之于现在为什么 YAML 成为一个主流选择,我还没有答案。我相信,Ansible/CircleCI 或者 Github Actions 都出自于非常优秀的工程师之手,他们应该考虑过使用 YAML 的利弊。


欢迎大家在评论区留言,分享你在做配置时经受过的痛苦,以及是如何解决它的。


原文链接:Your configs suck? Try a real programming language.


2020-04-29 16:359396
用户头像
赵钰莹 极客邦科技 总编辑

发布了 894 篇内容, 共 673.2 次阅读, 收获喜欢 2694 次。

关注

评论 3 条评论

发布
用户头像
这不可能吧,写配置都上 py?
2020-06-21 12:21
回复
用户头像
其实是个代码化选型的问题,一般来说这些场景中DSL强于通用编程语言强于标识性语言
2020-05-10 00:35
回复
用户头像
怎么感觉有点文不对题?
2020-04-30 08:03
回复
没有更多了
发现更多内容

MES实时监控食品加工过程中各环节的安全

万界星空科技

工业互联网 mes 万界星空科技 食品MES 食品行业

Java读取寄存器数据的方法

不在线第一只蜗牛

Java 数据库

前端是靠什么起家的?

伤感汤姆布利柏

数据驱动新时代:数据飞轮如何唤醒中台潜能

不叫猫先生

大数据 数据中台 数据仓库 数据飞轮

Flink垃圾图片分类优胜奖比赛攻略_贪吃的小香猪-148队

阿里云天池

TikTok怎么开直播?TikTok直播专线是什么?

Ogcloud

海外直播专线 tiktok直播 tiktok直播专线 海外直播网络 tiktok直播网络

人工智能 | 基于ChatGPT开发人工智能服务平台

测吧(北京)科技有限公司

测试

助力园区数字化转型,合合信息市北高新园区打造“一企一画像”个性化服务

合合技术团队

数字化转型 科技 合合信息

火山引擎数智平台:高性能ChatBI的技术解读和落地实践

字节跳动数据平台

大数据 BI 数据可视化 大模型 ChatBI

Node.js 扩展N-API 和应用场景

PingCode研发中心

node.js 应用场景

华瑞指数云ExponTech与崖山科技达成战略合作,共筑国产数据库新生态

科技热闻

阿里巴巴API助力电商:商品详情获取与数据驱动的完美结合

技术冰糖葫芦

API Gateway API 接口 API 测试 pinduoduo API

tair性能挑战赛攻略心得-Zzzzz

阿里云天池

谷歌云推出全新区块链RPC服务:简化Web3开发

区块链软件开发推广运营

交易所开发 dapp开发 区块链开发 公链开发 代币开发

四类取整方式

不在线第一只蜗牛

c++ C#

关于征集人工智能中台系列标准参编单位通知

中国信通院AI Infra工作组

Suno 重磅功能「Covers」:一键翻唱任意歌曲;阿里通义将发布 AI 视频生成大模型丨 RTE 开发者日报

声网

提高软技能,财务团队发展的关键经验教训

智达方通

全面预算管理 财务管理 财务报告 管理会计信息化

万界星空科技AI低代码MES的具体功能及工厂应用效果

万界星空科技

低代码 低代码平台 mes 万界星空科技 低代码云MES

基于ChatGPT开发人工智能服务平台

霍格沃兹测试开发学社

TON基金会与Curve Finance合作:推出基于TON的新型稳定币互换项目

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 NFT开发 公链开发

Suno 重磅功能「Covers」:一键翻唱任意歌曲;阿里通义将发布 AI 视频生成大模型丨 RTE 开发者日报

声网

2024南京软件产业博览会(南京软博会)

AIOTE智博会

软件博览会 软件展会 软博会 南京软博会

阿里巴巴搜索API返回值:电商市场竞争的新武器

技术冰糖葫芦

API Gateway API 接口 API 测试 pinduoduo API

从数据仓库到数据飞轮:数据技术演进的探索与思考

不叫猫先生

数据中台 数据仓库 数据 数据飞轮

TikTok直播专线服务商推荐

Ogcloud

海外直播专线 tiktok直播 tiktok直播专线 tiktok直播网络 TikTok跨境直播

为什么配置模式令人抓狂?尝试用编程语言来写吧_语言 & 开发_佚名_InfoQ精选文章