写点什么

2021 年 Istio 大型“入坑”指南

  • 2021-03-02
  • 本文字数:2868 字

    阅读完需:约 9 分钟

2021年 Istio 大型“入坑”指南
2021 年伊始,如果你打算在生产环境中落地 Service Mesh,那么 Istio 必定在你的考虑范围之内。作为目前最流行的 Service Mesh 技术之一,Istio 拥有活跃的社区和众多的落地案例。但如果你想在生产环境大规模落地 Isito,这看似壮观美好的冰山下,却是暗流涌动,潜藏着无数凶险。


本文是笔者深度参与百度百亿量级流量生产环境研发和落地 Istio 两年来的经验总结和一些思考,旨在让正在考虑在自己生产环境引入 Isito 的读者能有所参考和启发,做好更充足的储备,更轻松的“入坑” Istio。

1、使用 Istio 无法做到完全对应用透明

服务通信和治理相关的功能迁移到 Sidecar 进程中之后, 应用中的 SDK 通常需要作出一些对应的改变。

SDK 需要关闭一些功能,例如重试。一个典型的场景是,SDK 重试 m 次,Sidecar 重试 n 次,这会导致 m * n 的重试风暴,从而引发风险。


此外,诸如 trace header 的透传,也需要 SDK 进行升级改造。如果你的 SDK 中还有其它特殊逻辑和功能,这些可能都需要小心处理才能和 Isito Sidecar 完美配合。

2、Istio 对非 K8S 环境的支持有限

在业务迁移至 Istio 的同时,可能并没有同步迁移至 K8S,而是仍然运行在原有 PaaS 系统之上。

这会带来一系列挑战:


  • 原有 PaaS 可能没有容器网络,Istio 的服务发现和流量劫持都可能要根据旧有基础设施进行适配才能正常工作


  • 如果旧有的 PaaS 单个实例不能很好的管理多个容器(类比 K8S 的 Pod 和 Container 概念),大量 Istio Sidecar 的部署和运维将是一个很大的挑战


  • 缺少 K8S webhook 机制,Sidecar 的注入也可能变得不那么透明,而需要耦合在业务的部署逻辑中

3、只有 HTTP 协议是一等公民

Istio 原生对 HTTP 协议提供了完善的全功能支持,但在真实的业务场景中,私有化协议却非常普遍,而 Istio 却并未提供原生支持。


这导致使用私有协议的一些服务可能只能被迫使用 TCP 协议来进行基本的请求路由,这会导致很多功能的缺失,这其中包括 Istio 非常强大的基于内容的消息路由,如基于 header、 path 等进行权重路由。

4、扩展 Istio 的成本并不低

虽然 Istio 的总体架构是基于高度可扩展而设计,但由于整个 Istio 系统较为复杂,所以如果你实际对 Istio 进行过扩展,就会发现成本并不低。


以扩展 Istio 支持某一种私有协议为例,首先你需要在 Istio 的 api 代码库中进行协议扩展,其次你需要修改 Istio 代码库来实现新的协议处理和下发,接着你还需要修改 xds 代码库的协议,最后你还要在 Envoy 中实现相应的 Filter 来完成协议的解析和路由等功能。


在这个过程中,你还可能面临上述数个复杂代码库的编译等工程挑战(如果你的研发环境不能很好的使用 Docker 或者无法访问部分国外网络的情况下)。


即使做完了所有的这些工作,也可能面临这些工作无法合并回社区的情况,社区对私有协议的扩展支持度不高,这会导致你的代码和社区割裂,为后续的升级更新带来隐患。

5、Istio 在集群规模较大时的性能问题

Istio 默认的工作模式下,每个 Sidecar 都会收到全集群所有服务的信息。如果你部署过 Istio 官方的 Bookinfo 示例应用,并使用 Envoy 的 config dump 接口进行观察,你会发现,仅仅几个服务,Envoy 所收到的配置信息就有将近 20w 行。


可以想象,在稍大一些的集群规模,Envoy 的内存开销、Istio 的 CPU 开销、XDS 的下发时效性等问题,一定会变得尤为突出。


Istio 这么做一是考虑这样可以开箱即用,用户不用进行过多的配置,另外在一些场景,可能也无法梳理出准确的服务之间的调用关系,因此直接给每个 Sidecar 下发了全量的服务配置,即使这个 Sidecar 只会访问其中很小一部分服务。


当然这个问题也有解法,如果你的生产环境中,能梳理出这些调用关系,你可以通过 Sidecar CRD 来显示定义服务调用关系,使 Envoy 只得到他需要的服务信息,从而大幅降低 Envoy 的资源开销。

6、XDS 分发没有分级发布机制

当你对一个服务的策略配置进行变更的时候,XDS 不具备分级发布的能力,所有访问这个服务的 Envoy 都会立即收到变更后的最新配置。这在一些对变更敏感的严苛生产环境,可能是有很高风险甚至不被允许的。


如果你的生产环境严格要求任何变更都必须有分级发布流程,那你可能需要考虑自己实现一套这样的机制。

7、Istio 组件故障时是否有退路?

以 Istio 为代表的 Sidecar 架构的特殊性在于,Sidecar 直接承接了业务流量,而不像一些其他的基础设施那样,只是整个系统的旁路组件(比如 K8S)。


因此在 Isito 落地初期,你必须考虑,如果 Sidecar 进程挂掉,服务怎么办?是否有退路?是否能 fallback 到直连模式?


在 Istio 落地过程中,是否能无损 fallback,通常决定了核心业务能否接入 Service Mesh。

8、Istio 技术架构的成熟度还没有达到预期

虽然 Istio 1.0 版本已经发布很久了,但是如果你关注社区每个版本的迭代,就会发现,Istio 目前架构依然处于不太稳定的状态,尤其是 1.5 版本前后的几个大版本,先后经历了去除 Mixer 组件、合并为单体架构、仅支持高版本 K8S 等等重大变动,这对于已经在生产环境中使用了 Istio 的用户非常不友好,因为升级会面临各种不兼容性问题。


好在社区也已经意识到这一问题,2021 年社区也成立了专门的小组,重点改善 Istio 的兼容性和用户体验。

9、Istio 缺乏成熟的产品生态

Istio 作为一套技术方案,却并不是一套产品方案。


如果你在生产环境中使用,你可能还需要解决可视化界面、权限和账号系统对接、结合公司已有技术组件和产品生态等问题,仅仅通过命令行来使用,可能并不能满足你的组织对权限、审计、易用性的要求。


而 Isito 自带的 Kiali 功能还十分简陋,远远没有达到能在生产环境使用的程度,因此你可能需要研发基于 Isito 的上层产品。

10、Istio 目前解决的问题域还很有限

Istio 目前主要解决的是分布式系统之间服务调用的问题,但还有一些分布式系统的复杂语义和功能并未纳入到 Istio 的 Sidecar 运行时之中,比如消息发布和订阅、状态管理、资源绑定等等。


云原生应用将会朝着多 Sidecar 运行时或将更多分布式能力纳入单 Sidecar 运行时的方向继续发展,以使服务本身变得更为轻量,让应用和基础架构彻底解耦。


如果你的生产环境中,业务系统对接了非常多和复杂的分布式系系统中间件,Istio 目前可能并不能完全解决你的应用的云原生化诉求。

写在最后

看到这里,你是否感到有些沮丧,而对 Istio 失去信心?


上面列举的这些问题,实际上并不影响 Istio 依然是目前最为流行和成功的 Service Mesh 技术选型之一。Istio 频繁的变动,一定程度上也说明它拥有一个活跃的社区,我们应当对一个新的事物抱以信心,Istio 的社区也在不断听取来自终端用户的声音,朝着更合理的方向演进。


同时,如果你的生产环境中的服务规模并不是很大,服务已经托管于 K8S 之上,也只使用那些 Istio 原生提供的能力,那么 Istio 依然是一个值得尝试的开箱即用方案。


但如果你的生产环境比较复杂,技术债务较重,专有功能和策略需求较多,亦或者服务规模庞大,那么在开始使用 Istio 之前,你需要仔细权衡上述这些要素,以评估在你的系统之中引入 Istio 可能带来的复杂度和潜在成本。


作者:陈同学,百度云原生团队资深研发工程师。

2021-03-02 18:388405

评论 4 条评论

发布
用户头像
关注下dapr
2021-12-30 14:12
回复
用户头像
花了一个下午,对Istio各种资料的查,还看到说Istio代替SpringCloud,慌得一逼!结果大神来了个大逆转,好吧!继续SpringCloud系。。。
2021-11-08 17:27
回复
用户头像
总结的很到位
2021-09-12 10:07
回复
用户头像
太复杂了
2021-04-08 18:05
回复
没有更多了
发现更多内容

【深入理解TcaplusDB技术】如何启动TcaplusDB进程

tcaplus

数据库 nosql TcaplusDB 腾讯游戏

【深入理解TcaplusDB技术】TcaplusDB机型管理

tcaplus

数据库 nosql TcaplusDB 腾讯游戏

【深入理解TcaplusDB技术】TcaplusDB 表管理——清理表

tcaplus

数据库 nosql TcaplusDB 腾讯游戏

通过一个具体的例子,讲解 SAP Cloud Platform Integration(CPI) 的使用方法

Jerry Wang

Cloud 系统集成 SAP 6月月更 cpi

福昕软件重磅发布福昕高级PDF编辑器12.0

联营汇聚

【深入理解TcaplusDB技术】入门Tcaplus SQL Driver

tcaplus

数据库 nosql TcaplusDB 腾讯游戏

【深入理解TcaplusDB技术】TcaplusDB进程

tcaplus

数据库 nosql TcaplusDB 腾讯游戏

强推10款Python常用的开发工具

左手の明天

Python ide python开发工具

【深入理解TcaplusDB技术】查看TcaplusDB线上运行情况

tcaplus

数据库 nosql TcaplusDB 腾讯游戏

【深入理解TcaplusDB技术】入门MySQL Driver

tcaplus

数据库 nosql TcaplusDB 腾讯游戏

【深入理解TcaplusDB技术】运维平台中实现TcaplusDB事务管理

tcaplus

数据库 nosql TcaplusDB 腾讯游戏

【深入理解TcaplusDB技术】集群管理操作

tcaplus

数据库 nosql TcaplusDB 腾讯游戏

【深入理解TcaplusDB知识库】部署TcaplusDB Local版常见问题

tcaplus

数据库 nosql TcaplusDB 腾讯游戏

【深入理解TcaplusDB技术】TcaplusDB机器如何初始化和上架

tcaplus

数据库 nosql TcaplusDB 腾讯游戏

大数据培训Flink之Table API 与 SQL

@零度

flink 大数据开发

【深入理解TcaplusDB技术】TcaplusDB运维——日常巡检

tcaplus

数据库 nosql TcaplusDB 腾讯游戏

el-table 分页全选功能讲解

CRMEB

【深入理解TcaplusDB技术】TcaplusDB机型

tcaplus

数据库 nosql TcaplusDB 腾讯游戏

【深入理解TcaplusDB技术】TcaplusDB常规单据

tcaplus

数据库 nosql TcaplusDB 腾讯游戏

【深入理解TcaplusDB技术】TcaplusDB 表管理——修改表

tcaplus

数据库 nosql TcaplusDB 腾讯游戏

【深入理解TcaplusDB技术】TcaplusDB 新增业务集群cluster

tcaplus

数据库 nosql TcaplusDB 腾讯游戏

【深入理解TcaplusDB技术】TcaplusDB事务管理——错误排查

tcaplus

数据库 nosql TcaplusDB 腾讯游戏

【深入理解TcaplusDB技术】TcaplusDB机器如何下架

tcaplus

数据库 nosql TcaplusDB 腾讯游戏

数据平台调度升级改造 | 从Azkaban 平滑过度到 Apache DolphinScheduler 的操作实践

Apache DolphinScheduler

Apache 大数据 开源 workflow

OLAP分析型应用场景中,数仓中vacuum为何对列存表无效

华为云开发者联盟

数据库 后端 存储 华为云

【深入理解TcaplusDB技术】TcaplusDB 表管理——新建表

tcaplus

数据库 nosql TcaplusDB 腾讯游戏

【深入理解TcaplusDB技术】TcaplusDB新增机型

tcaplus

数据库 nosql TcaplusDB 腾讯游戏

【深入理解TcaplusDB技术】入门TcaplusDB 问题汇总

tcaplus

数据库 nosql TcaplusDB 腾讯游戏

【深入理解TcaplusDB技术】入门Tcaplus-JDBC开发

tcaplus

数据库 nosql TcaplusDB 腾讯游戏

【深入理解TcaplusDB技术】TcaplusDB 表管理——删除表

tcaplus

数据库 nosql TcaplusDB 腾讯游戏

【深入理解TcaplusDB技术】TcaplusDB 表管理——重建表

tcaplus

数据库 nosql TcaplusDB 腾讯游戏

2021年 Istio 大型“入坑”指南_语言 & 开发_百度云原生团队_InfoQ精选文章