【锁定直播】字节、华为云、阿里云等技术专家讨论如何将大模型接入 AIOps 解决实际问题,戳>>> 了解详情
写点什么

为什么 Segment 会从微服务退回单体架构?

  • 2018-07-18
  • 本文字数:3098 字

    阅读完需:约 10 分钟

近年来,我们发布了很多文章介绍企业向微服务迁移的成败经验。最近, Segment 的 Alexandra Noonan 写了一篇文章,讲述了他们从单体架构迁移到微服务,之后又退回单体应用的经历。文中 Alexandra 具体介绍了他们从原来的简单架构迁移到微服务的过程:

我们原来有个 API 负责拦截事件并将它们转发到一个分布式的消息队列中。这里的一个事件指的是由网页或移动应用生成的,包含用户与用户动作信息的 JSON 对象。当队列中的事件被消费后,系统会检查用户设置来决定接收事件的目标。(……)之后事件被逐个发送到每个目标的 API。这样的流程很合理,因为开发者只需要将事件发送到 Segment 的 API 这一个目标即可,无需创建几十个集成。

如果事件交付失败,就会被系统重新加入队列,也就是说有时工作者进程要一边发送新的事件,一边尝试重新发送之前失败的事件。这样会导致所有目标都出现延迟,Alexandra 解释说:

为解决最紧迫的阻塞问题,团队为每个目标各创建了一个独立的服务和队列。这一新架构包括一个新的路由进程,它会接收入站事件并向每个选定的目标分发一份该事件的拷贝。现在如果某个目标出现问题,只有它自己的队列会回溯,不会影响其它目标。这一微服务化的架构将各个目标独立开来,这样当某个目标又出现常遇到的问题时就会非常有用。

文章之后写到,Segment 的开发团队一开始将所有代码存放在一起,但这引发了许多问题:

最大的麻烦在于,只要一个测试崩溃,那么所有目标的测试都会失败。当我们试图部署一项改动时,我们必须先费劲修复崩溃的测试,就算改动与一开始的变动毫无关联也得这样做。为了解决这个问题,我们决定将代码拆分到每个目标各自的存储库里。

这样一来开发团队的灵活性的确改善了许多。然而随着目标数量的增加,存储库的数量也在同步增长。为了让开发者免受维护这么多代码库的麻烦,Segment 团队创建了许多共享库,存放所有目标通用的变换和功能。这组共享库大大减轻了他们维护工作的压力。但这个措施也有不太容易发现的负面影响:向共享库更新并测试改动会花费大量时间,还会增加破坏无关目标的风险。最后这些库开始分裂为不同的版本,各自不统一,引发了之前没有想到的一个问题:每个目标的代码库都会依赖不同版本的共享库。Alexandra 承认,他们当时可以开发工具来自动将改动更新到这些库中,但那时他们又遇到了这个微服务架构产生的一些新问题。

新出现的问题是,每个服务都有自己的负载模式。有些服务一天处理几个事件,有的服务每秒就能处理几千个。如果目标只处理很少的事件,工作者线程就得在出现负载问题时手动扩展服务以满足需求。

他们的系统集成了自动扩展能力,但因为每个服务都需要指定 CPU 和内存资源分配,调整自动扩展的设置“更像玄学而非科学”。如前所述,每次存储库的数量增长时他们都要增加目标,最后团队平均每月要增加三个目标,当然还要加上更多的队列和服务。

2017 年初, Segment 的一个产品的核心部分使我们达到了峰值负载。当时的情况下我们好像在从微服务的大树上摔下来,一路撞上了所有的树枝。我们这个小团队非但没有提升效率,反而陷入了愈加复杂的泥潭。这个架构的核心优势都成了负担。我们的速度暴降,故障率却在暴增。(……)于是,我们决定回退一步,重新考虑整个流程。

文章最后 Noonan 回顾了他们如何摆脱这个微服务架构,其中他们还开发了 Centrifuge 来替换所有独立的队列,将所有事件都发送到一个单体服务上。他们还将所有目标的代码都迁移到一个存储库里,不过这一次新增了一些代码管理的规则:所有目标都要使用同一个版本,每次更新时同步更替到新版本。他们再也不用操心各个独立版本之间的差异了,因为所有的目标都在使用一个版本,以后也是如此。对于开发者来说,管理越来越多的目标所花费的时间减少了,风险也降低了。

Noonan 的文章还写了很多内容,都是关于他们退回单体服务的经历。感兴趣的读者应该去仔细读一下,文章里面有很多架构细节、关于存储库架构的思考和建立弹性测试集的方法。最后,团队将回退的好处总结如下:

2016 年时我们还在使用微服务架构,我们为共享库带来了 32 项改进。而仅仅今年到现在我们就做出了 46 项改进。过去半年来我们为库带来的改进比 2016 年全年都多。因为所有的目标都处于同一服务内,我们可以很好地搭配 CPU 密集型服务和内存密集型服务,所以扩展服务以满足性能需求变得非常容易。更大的工作者池能负载更多内容,所以我们不再需要将处理少量负载的目标挂起到页面了。

不过这个架构回退过程也有一些负面影响,包括:隔离错误变得更困难(一个目标的错误导致目标崩溃,结果会传染到所有目标);升级一个目标的版本可能会破坏其它一些目标,于是后者也需要升级。Noonan 在文章最后写下了诚恳的总结:

在微服务和单体架构之间做选择时,要注意它们各自都有自己需要考虑的因素。我们的架构中有些部分是微服务表现更出色,但服务端的目标迁移到微服务后的一系列麻烦是一个很好的教训,证明这一流行趋势在某些情况下能对生产力和性能有多大负面影响。结果对于我们来说,单体架构才是最终解决方案。

其实他们关于微服务的某些看法是很眼熟的。今年早些时候我们报道说,ThoughtWorks 根据观察认为微服务尚未进入普及周期。当时的报道写到:“主要原因之一是很多组织并没有为微服务做好准备,他们缺少一些关于运营和自动化的基础实践”。此外, Jan 在另一篇文章中总结了多年来微服务迁移的失败案例。Berico 科技的首席软件工程师 Richard Clayton 提到了他们当时遇到的一个问题:

在不同服务之间共享通用功能代码,以消灭各个服务中的重复功能的努力却带来了巨大的负面影响,最终导致了大规模回退。

回到原文,有很多关于这个话题的讨论,比如 Hacker News Reddit 上的这些;有些讨论者认为与微服务无关的一些因素可能导致了这些问题。比如,有些评论指出 Noonan 的文章并没有引用 CI,只有 CD,起码这是一个奇怪的组合。还有评论认为不止微服务会引发这些问题,所有的分布式系统都是一个样。关于这一点我们之前也提到过,有人使用 SOA 时有过类似的经验:

我曾在一个类似的代码库中工作过,那时他们管它叫 SOA,云还没开始流行。对服务的每次调用都会启动一个完整的服务实例。我想我们应该强制将网络延迟规定为架构设计的要素之一。

有趣的是很多讨论串谈到了微服务中数据上下文的问题。这个话题我们探讨过很多次,这也是微服务反对者的主要论据之一。HackerNews 的一条评论举例说:

比这还糟呢。据我观察多数微服务架构根本就没考虑一致性(“我们才不要乱七八糟的事务!”),盲目地随大流还乐在其中。我搞不懂为啥子人们会觉得,把软件模块拆分开来然后用缓慢不可靠的网络和弱爆的手动连接 REST 处理串起来,就能神奇地让架构面目一新哩?我觉得人们产生这种生产力幻觉的原因是:”我把这些都搞定啦,现在我也有一套’管它是什么即服务‘的先进玩意儿喽!看看那酷毙的数据面板上闪烁的小绿灯吧,我们可是为了它干了好几个月呢!“

另外,为微服务定义域是多年来我们一直强调的微服务部署关键环节。有一篇 PPT 介绍了如何使用 DDD 解构单体应用,Reddit 的一个讨论串也谈到了这一点:

建立一个出色的微服务架构是很难的。我现在觉得关键在于恰当地分隔你的域,当系统进化时持续关注这一层面。微服务并不像它的名字那样,它不必非得那么小,但是要搭配适合这个架构的元素。很多人的失败正是因为忽视了这一点。

其他人怎么看?比如说,Segment 的微服务架构出现的问题能否用其它方式解决,无需退回单体应用?或者一开始的单体架构是否有办法进化得更好,解决原来的问题,而无需切换到微服务?

查看英文原文: Why Segment Returned to a Monolith from Microservices

感谢冬雨对本文的审校。

2018-07-18 06:295537

评论

发布
暂无评论
发现更多内容

PDF处理工具:ABBYY FineReader PDF 15 for Mac v15.2.14中文激活版下载

影影绰绰一往直前

声音虹吸音频处理工具:Sound Siphon for Mac v3.6.6激活版下载

影影绰绰一往直前

生活中必不可少的就是日历了,万年历 for Mac与其他日历软件有哪些不一样呢?

Rose

日历 Mac日历软件 万年历

最佳GTD时间效率工具:OmniFocus Pro 4 for mac v4.0.5正式激活版下载

影影绰绰一往直前

作者推荐 | 企业级缓存技术解析,你必须知道的“9“大技术问题与常见误区

洛神灬殇

分布式缓存 技术指南 2024年第二十八篇文章 技术误区 探索分析

【亲测】pd19虚拟机永久激活教程 兼容m1/m2/intel

Rose

Mac虚拟机 Parallels Desktop 19 pd19虚拟机

数字DJ音乐软件:Native Instruments Traktor Pro Plus for Mac激活版

影影绰绰一往直前

跳过youtube赞助商广告软件:SponsorBlock for YouTube for Mac v5.5.4激活版下载

影影绰绰一往直前

Nuxt 3.10 正式发布,来看看有功能变化!

伤感汤姆布利柏

面试官:SpringCloudGateway过滤器类型有哪些?

王磊

Java 面试

室内LED显示屏能否改为户外使用?

Dylan

LED显示屏 户外LED显示屏 led显示屏厂家 户内led显示屏

菜单栏时钟软件:Dato for Mac v5.2.0激活版下载

影影绰绰一往直前

全景图制作软件:DoubleTake for mac v2.6.12注册激活版

影影绰绰一往直前

AIGC、AGI、ChatGPT:揭秘人工智能大模型的变革与创新

百度开发者中心

人工智能 大模型 ChatGPT

左耳听风 - 远程办公「读书打卡 day 22」

Java 工程师蔡姬

读书笔记 程序员 个人成长 远程办公 职业发展

详解如何在数仓中搭建细粒度容灾应用

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 华为云GaussDB(DWS)

Wireshark中的ICMP协议包分析

小齐写代码

【AI绘画】最新Stable Diffusion2024年学习——安装与使用教程

Geek_bbbdb0

AI

4K视频下载器:4K Video Downloader Plus Pro for Mac v1.4.2激活版下载

影影绰绰一往直前

「2023 年度中国时序数据应用创新奖」正式公布,路特斯、一汽解放榜上有名

TDengine

tdengine 时序数据库

快速图像查看器:EdgeView 4 for Mac v4.4.8激活版下载

影影绰绰一往直前

AI 原生时代的云计算

百度Geek说

人工智能 云计算

定制开发:软件公司塑造独特解决方案

天津汇柏科技有限公司

定制软件开发 软件定制开发 软件开发定制

文心一言 VS 讯飞星火 VS chatgpt (191)-- 算法导论14.2 1题

福大大架构师每日一题

福大大架构师每日一题

数据库管理工具:DataGrip 2023 for mac 2023.3.4中文激活版

影影绰绰一往直前

ps2024安装包永久版 ps2024版本有什么新功能?

Rose

Photoshop 2024破解版 Photoshop 2024直装版 ps2024新功能 ps2024中文

AI大底座:大模型时代的深度解析与实践

百度开发者中心

自然语言处理 语音识别 大模型 AI 大底座

为什么Segment会从微服务退回单体架构?_DevOps & 平台工程_Mark Little_InfoQ精选文章