左耳朵耗子：从亚马逊的实践，谈分布式系统的难点_语言 & 开发_陈皓

AICon 北京站 Keynote 亮点揭秘，想了解 Agent 智能体来就对了！了解详情 



 写点什么

本文摘自陈皓（左耳朵耗子）在极客时间 App/ 小程序上开始的全年付费专栏《左耳听风》，已获授权。更多分布式系统关键技术、性能调优攻略，请点击此处订阅专栏阅读（支持微信支付），全年订阅199 元，新用户立减30 元。

从目前可以得到的信息来看，对分布式服务化架构实践最早的应该是亚马逊。因为早在 2002 年的时候，亚马逊 CEO 杰夫·贝索斯（Jeff Bezos）就向全公司颁布了下面的这几条架构规定（来自《 Steve Yegge 对 Google 平台吐槽》一文）。

所有团队的程序模块都要通过 Service Interface 方式将其数据与功能开放出来。
团队间程序模块的信息通信，都要通过这些接口。
除此之外没有其它的通信方式。其他形式一概不允许：不能直接链结别的程序（把其他团队的程序当做动态链接库来链接），不能直接读取其他团队的数据库，不能使用共享内存模式，不能使用别人模块的后门，等等。唯一允许的通信方式是调用 Service Interface。
任何技术都可以使用。比如：HTTP、CORBA、Pub/Sub、自定义的网络协议等。
所有的 Service Interface，毫无例外，都必须从骨子里到表面上设计成能对外界开放的。也就是说，团队必须做好规划与设计，以便未来把接口开放给全世界的程序员，没有任何例外。
不这样做的人会被炒鱿鱼。

这应该就是 AWS（Amazon Web Service）出现的基因吧。当然，前面说过，采用分布式系统架构后会出现很多的问题。比如：

一个线上故障的工单会在不同的服务和不同的团队中转过来转过去的。
每个团队都可能成为一个潜在的 DDoS 攻击者，除非每个服务都要做好配额和限流。
监控和查错变得更为复杂。除非有非常强大的监控手段。
服务发现和服务治理也变得非常复杂。

为了克服这些问题，亚马逊这么多年的实践让其可以运维和管理极其复杂的分布式服务架构。我觉得主要有以下几点。

分布式服务的架构需要分布式的团队架构。在亚马逊，一个服务由一个小团队（Two Pizza Team 不超过 16 个人，两张 Pizza 可以喂饱的团队）负责，从前端负责到数据，从需求分析负责到上线运维。这是良性的分工策略——按职责分工，而不是按技能分工。
分布式服务查错不容易。一旦出现比较严重的故障，需要整体查错。出现一个 S2 的故障，就可以看到每个团队的人都会上线。在工单系统里能看到，在故障发生的一开始，大家都在签到并自查自己的系统。如果没问题，也要在线待命（standby），等问题解决。（我在《故障处理最佳实践：应对故障》一文中详细地讲过这个事）。
没有专职的测试人员，也没有专职的运维人员，开发人员做所有的事情。开发人员做所有事情的好处是——吃自己的狗粮（Eat Your Own Dog Food）最微观的实践。自己写的代码自己维护自己养，会让开发人员明白，写代码容易维护代码复杂。这样，开发人员在接需求、做设计、写代码、做工具时都会考虑到软件的长期维护性。
运维优先，崇尚简化和自动化。为了能够运维如此复杂的系统，亚马逊内部在运维上下了非常大的功夫。现在人们所说的 DevOps 这个事，亚马逊在 10 多年前就做到了。亚马逊最为强大的就是运维，拼命地对系统进行简化和自动化，让亚马逊做到了可以轻松运维拥有上千万台虚机的 AWS 云平台。
内部服务和外部服务一致。无论是从安全方面，还是接口设计方面，无论是从运维方面，还是故障处理的流程方面，亚马逊的内部系统都和外部系统一样对待。这样做的好处是，内部系统的服务随时都可以开放出来。而且，从第一天开始，服务提供方就有对外服务的能力。可以想像，以这样的标准运作的团队其能力会是什么样的。

在进化的过程中，亚马逊遇到的问题很多，甚至还有很多几乎没有人会想到的非常生僻的东西，它都一一学习和总结了，而且都解决得很好。

构建分布式系统非常难，充满了各种各样的问题，但亚马逊还是毫不犹豫地走了下去。这是因为亚马逊想做平台，不是“像淘宝这样的中介式流量平台”，而是那种“可以对外输出能力的平台”。

亚马逊觉得自己没有像史蒂夫·乔布斯（Steve Jobs）这样的牛人，不可能做出像 iPhone 这样的爆款产品，而且用户天生就是众口难调，与其做一个大家都不满意的软件，还不如把一些基础能力对外输出，引入外部的力量来一起完成一个用户满意的产品。这其实就是在建立自己的生态圈。虽然在今天看来这个事已经不稀奇了，但是贝索斯早在十五年前就悟到了，实在是个天才。

所以，分布式服务架构是需要从组织，到软件工程，再到技术上的一个大的改造，需要比较长的时间来磨合和改进，并不断地总结教训和成功经验。

分布式系统中需要注意的问题

我们再来看一下分布式系统在技术上需要注意的问题。

注：以上仅为文章的一部分，欲阅读全文，请点击此处订阅专栏（支持微信支付）。一次订阅，永久阅读，现在订阅，立享福利：

福利一：原价¥199/ 年，极客时间新用户注册立减¥30

福利二：每邀请一位好友购买，你可获得 36 元现金返现，多邀多得，上不封顶，立即提现（提现流程：极客时间服务号 - 我的 - 现金奖励提现）

发布

暂无评论

创作场景

左耳朵耗子：从亚马逊的实践，谈分布式系统的难点

评论

使用GPT探索学习新东西的乐趣与惊喜 💡|社区征文

壹米滴答助力制造业、商贸业及电商企业提升商业流通效率

视频交友源码开发搭建平台用户资料功能：小功能有大用处！

飞腾开发者平台上线龙蜥专区，为开发者提供硬核技术支持

中航机载新技术预研与应用工程师万胜来《IoTDB 在中航机载智能云制造系统》

DHorse v1.2.1 发布，基于k8s的发布平台

多元融合：流媒体传输网络的全盘解法

2023IKCEST “一带一路” 国际大数据竞赛重磅启动！

极客欢聚，燃动夏日！开发者嘉年华等你来

再获认可！万里数据库参编中国信通院数据库研究报告 GreatSQL入选中国数据库产业图谱

架构师日记-到底该如何搭建一个新系统 | 京东云技术团队

手把手教你用 NebulaGraph AI 全家桶跑图算法

sharding-jdbc分库连接数优化 | 京东物流技术团队

和鲸 × 于峻川丨以遥感领域为例，浅谈 AI for Science 带来的数据开放、跨学科协同及产学研一体

常规LED广告显示屏的运营成本怎么估算

HarmonyOS课程尝鲜计划，优享特权大礼包

TinyNG——开源Angular组件库，助力Web应用快速开发！

openEuler 22.03 LTS登录AWS Marketplace

向量数据库的崛起：从矢量搜索到深度学习 (二)

【推荐】贵阳市等保测评机构看这里！

Spring 中的父子容器是咋回事？

思维导图软件哪个好？试用百款导图软件只留下这15个。

性能测试的理解误区

经过半年的努力，我终于成为了谷歌开发者专家（GDE）

实时社群技术专题(二)：百万级成员实时社群技术实现（消息系统篇）

悦数图数据库：图技术加速行业大模型智能化应用落地｜WAIC 2023 精彩回顾

云管平台和云服务器一样吗？两者有啥区别？

Kubernetes：快速入门指南

人人都是架构师-清晰架构 | 京东物流技术团队

创作场景

左耳朵耗子：从亚马逊的实践，谈分布式系统的难点

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载