即刻成为鸿蒙应用开发者,解锁职业发展新机遇!点击了解~ 了解详情
写点什么

踩坑总结:鹅厂小哥教你注册中心宕机后正确的处理姿势

  • 2020-12-26
  • 本文字数:2869 字

    阅读完需:约 9 分钟

踩坑总结:鹅厂小哥教你注册中心宕机后正确的处理姿势

微服务化是当前的一大趋势,注册中心既是微服务最基础的组件,也是最核心的组件,它为客户端提供所有可调用的服务列表。也正因如此,注册中心的可用性在微服务架构中要求极高。在实际开发中,虽然我们可以通过一些手段不断的在提高注册中心的可用性,但也无法保证注册中心 SLA (Service Level Agreement,服务级别协议)100%的可用性。既然这样,那么当注册中心宕机不可用时,我们应该如何做才能减轻影响呢?


注册中心的职责


在分析注册中心宕机带来的影响前,我们先来看下注册中心的职责,下面一张图就可以解释注册中心的主要职责。



  • 注册中心:用于服务端注册远程服务以及客户端发现服务。

  • 服务端:对外提供后台服务,将自己的服务信息注册到注册中心。

  • 客户端:从注册中心获取远程服务的注册信息,然后进行远程过程调用。


可以很清晰的看到,在注册中心宕机时,服务注册以及服务发现和服务节点推送都会受到影响,在没有任何缓存的情况下,服务之间的调用都会受到影响。


Spring Cloud 的服务注册与发现


为了更好的阐述注册中心不可用带来的问题,我们先看看 Spring Cloud 的服务注册发现是怎么做的。这里我们以 Spring Cloud Consul 的代码为例。


服务注册


public void register(ConsulRegistration reg) {    log.info("Registering service with consul: " + reg.getService());    try {      client.agentServiceRegister(reg.getService(), properties.getAclToken());      if (heartbeatProperties.isEnabled() && ttlScheduler != null) {        ttlScheduler.add(reg.getInstanceId());      }    }    catch (ConsulException e) {      if (this.properties.isFailFast()) {        log.error("Error registering service with consul: " + reg.getService(), e);        ReflectionUtils.rethrowRuntimeException(e);      }      log.warn("Failfast is false. Error registering service with consul: " + reg.getService(), e);    }}
复制代码


服务注册的源码在注册的过程中做了三件事情:


  1. 使用 Consul Client SDK 发起服务注册的操作。

  2. 使用定时任务定时发起心跳。

  3. 服务注册发生异常时,会根据配置 FailFast 的取值抛出异常。


服务发现


private List<ConsulServer> getServers() {    if (this.client == null) {      return Collections.emptyList();    }    String tag = getTag(); // null is ok    Response<List<HealthService>> response = this.client.getHealthServices(        this.serviceId, tag, this.properties.isQueryPassing(),        createQueryParamsForClientRequest(), this.properties.getAclToken());    if (response.getValue() == null || response.getValue().isEmpty()) {      return Collections.emptyList();    }    return transformResponse(response.getValue());  }
/** * Transforms the response from Consul in to a list of usable {@link ConsulServer}s. * * @param healthServices the initial list of servers from Consul. Guaranteed to be non-empty list * @return ConsulServer instances * @see ConsulServer#ConsulServer(HealthService) */protected List<ConsulServer> transformResponse(List<HealthService> healthServices) { List<ConsulServer> servers = new ArrayList<>(); for (HealthService service : healthServices) { ConsulServer server = new ConsulServer(service); if (server.getMetadata().containsKey(this.properties.getDefaultZoneMetadataName())) { server.setZone(server.getMetadata().get(this.properties.getDefaultZoneMetadataName())); } servers.add(server); } return servers; }
复制代码


服务发现的部分则更加简单,使用 Consul Client 获取服务名节点。我们已经清楚服务注册和发现的处理流程,再来看看宕机场景下的服务注册和发现。


注册中心宕机下的服务注册和发现


这里我们分 3 种场景来阐述注册中心宕机下服务的异常情况:


  • 新启动的服务下的异常

  • 运行中的服务的异常

  • 运行中且重启过的服务


1. 新启动的服务的异常


  • 服务注册


在注册中心宕机的情况下,用户可能有服务扩容或者需要启动新服务的诉求,服务在启动的时候会在 Consul Client 发起服务注册调用时异常,在 FailFast 开启的情况下(默认开启),服务会抛出异常,同时服务会启动失败,而当 FailFast 没有被打开的情况下,服务仅输出一段 warn 日志,不影响服务的启动。


那么在注册中心宕机的情况下,针对服务扩容或者新启动的服务,可以通过关闭 FailFast 让应用启动,后续通过心跳进行自动注册,来减轻对服务的影响。


  • 服务发现


由于注册中心连接不上,且新启动的服务没有任何调用方的服务节点的数据源可以读取数据,因此服务发现不可用。


2. 运行中的服务的异常


  • 服务注册


对于运行中的服务,服务已经注册成功,但宕机期间所有的心跳请求都会失败。


  • 服务发现


注册中心宕机期间,服务发现的请求会失败。


这里我们可以通过建立 cache 的方式来做降级处理,建立内存 cache+文件 cache 的方式。在发现注册中心不可用时使用内存 cache 中的数据,内存 cache 无数据则访问文件 cache。通过缓存的降级逻辑,当前运行中的服务节点间的调用不受影响,但对于新启动的节点以及宕机或者下线的节点存在无法感知的情况。


3. 运行中且重启过的服务


运行中且重启过的服务,这里指的是注册中心宕机期间,正常的服务被重启。


  • 服务注册


宕机期间所有的 HeartBeat 请求以及服务注册的请求都会失败。


服务重启时可以通过关闭 fail fast 进行服务的启动。这样这个节点能正常处理上游的流量。


  • 服务发现


注册中心宕机期间,服务发现的请求会失败。


通过内存 cache+文件 cache 的方式来进行降级处理。服务发现过程中,发现注册中心不可用,则尝试使用内存 cache 的数据,但内存 cache 中的数据为空,则尝试使用本地文件数据进行恢复。


注册中心恢复中服务发现的异常


通过上述的一些降级方法,能够有效的降低注册中心异常对业务的影响。那么这样就够了吗?我们再来看一个注册中心恢复时的异常 case:


  1. 注册中心异常。

  2. 服务调用方调用注册中心异常,则降级使用 cache 中的数据。

  3. 注册中心恢复,此时大量的节点可能还未发起定时心跳的请求,因此所有的服务节点状态都变成了不健康的状态(Consul Health Check 配置 TTL check 的场景)。

  4. 服务调用方再次从注册中心拉取新的数据,但是所有节点都是不健康的节点。

  5. 服务调用失败。


针对这种场景,应该如何做呢?我们可以通过设置一个冷静期,在 Consul Client 发起拉取服务节点成功时,从以前使用 Cache 的降级数据到使用真实的服务节点数据前,等待两个心跳周期,等待期间都使用 Cache 数据,等被调方能正常完成心跳,更新其节点的健康状态后在使用真实的数据。



头图:Unsplash

作者:张艺辰

原文采坑总结:鹅厂小哥教你注册中心宕机后正确的处理姿势

来源:腾讯云中间件 - 微信公众号 [ID:gh_6ea1bc2dd5fd]

转载:著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

2020-12-26 19:202338

评论

发布
暂无评论
发现更多内容

天翼云分布式缓存服务(Redis)的几个核心概念

天翼云开发者社区

芝士就是力量!蒙牛2021年报笑出大大的CHEESE

科技新消息

TypeScript 之 any:哪里可以用?哪里不能用?

杨成功

4月月更

教你三步实现CDH到星环TDH的平滑迁移

星环科技

国产数据库

面试侃集合之 DelayQueue 篇

码农参上

4月月更

星环科技TDH基于Overlay网络架构为数据安全保驾护航

星环科技

数据库

再论ORACLE上云通用技术方案

天翼云开发者社区

设计消息队列存储消息数据的 MySQL 表格

唐尤华

架构实战营

龙蜥社区&龙蜥开发者获CSDN 2021年度技术影响力「年度开源项目」奖和「年度社区之星」

OpenAnolis小助手

开发者 开源项目 龙蜥社区 年度影响力 社区之星

【网络安全】网络安全堡垒机多少钱?有什么用?

行云管家

网络安全 信息安全 数据安全 堡垒机 企业安全

“敏捷项目比传统项目快”这个说法对吗?

优秀

项目管理 低代码开发

墨天轮访谈 | 腾讯张铭:带你揭秘王者荣耀背后的游戏数据库 TcaplusDB

墨天轮

数据库 TcaplusDB 国产数据库

把一整个生态圈藏进大沙漠 看蒙牛如何在每一滴奶中藏进玄机

科技新消息

夯实领军者地位 奶酪业务协同发展领先赛道

科技新消息

61%!产品+渠道创新 蒙牛冰淇淋业绩收录有史高增长

科技新消息

数千万次下载、百万行开源代码贡献,优麒麟如何打造中国开源操作系统新名片? | 卓越技术团队访谈录

优麒麟

Linux 开源 内核 优麒麟 多端融合

首个!青藤蜂巢荣获网络安全卓越验证中心&泰尔实验室双认证

青藤云安全

网络安全 青藤

专属云资源包计算规格探秘

天翼云开发者社区

打造中国优质奶源基地 筑牢高质量发展基石

科技新消息

大咖说·图书分享|数字化转型架构:方法论与云原生实践

大咖说

阿里巴巴 云原生 数字化转型

优麒麟社区 22.04 LTS Beta 版本发布!

优麒麟

Linux 开源 计算机 优麒麟 Beta

网络IO管理-简单一问一答、多线程方式

Linux服务器开发

多线程 后端开发 Linux后台开发 网络io 服务端开发

数仓建设 | ODS、DWD、DWM等理论实战

五分钟学大数据

数据仓库 4月月更

优麒麟荣获 CSDN IT 技术影响力之星“年度开源项目”奖项!

优麒麟

Linux 开源 IT 获奖 优麒麟

WEB安全:深入反射式dll注入技术

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 漏洞挖掘

天翼云分布式缓存服务(Redis)的应用场景(干货)

天翼云开发者社区

爆款国民冰淇淋原来是这样“凝冻”出来的

科技新消息

易观分析:海外业务亮眼,研发+IP运营助力中手游持续增长

易观分析

IP 中手游

自动化运维发展趋势以及好用工具推荐

行云管家

运维 IT运维 自动化运维

使用 Amazon Cloud WAN 构建您的全球网络

亚马逊云科技 (Amazon Web Services)

Builder 专栏

如何写内嵌式的帮助文档

小炮

帮助文档

踩坑总结:鹅厂小哥教你注册中心宕机后正确的处理姿势_语言 & 开发_腾讯云中间件_InfoQ精选文章