阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

应用云平台的可用性——从新浪 SAE 看云平台设计

  • 2012-02-09
  • 本文字数:3636 字

    阅读完需:约 12 分钟

一、可用性如何定义

  • 可用性 (availability) 是关于系统可供使用时间的表述,以不可用的时间为衡量指标。不可用时间越短,可用性越高。通常用 n 个 9 来描述。比如 4 个 9 的可用性,则是指一年中不可用时间在 52 分钟内,平均每周不可用时间在 1 分钟。
  • 可靠性 (reliablity) 是关于系统无故障时间间隔的描述,以发生故障的次数为衡量指标,故障次数越少,可靠性越高
  • 可维护性 (maintainability) 系统发生故障后,恢复的时间来描述。时间越短,可维护性越高。

从上面三者关系看出,服务的可靠性、可维护性越高,可用性就越高。这就要求我们在服务开发和管理中做到:提高服务系统的稳定性、改善软件的可管理性和可维护性。

对于 SAE 云计算平台而言,可用性包含三个方面:SAE 自身服务可用性、网络可用性、SAE 平台上数据可用性。

二、如何打造高可用的平台

1、软件设计和系统架构

软件是互联网服务的载体。良好的软件对于服务的可用性至关重要。从可用性定义来看,我们在软件设计时,既要考虑可靠性,又要考虑可维护性。

可靠性:这主要体现在软件本身的稳定性和容错性上。软件的稳定性很大程度上取决于代码质量,设计再优良的系统都有可能在实现上质量控制不好而导致失败。软件的容错则主要体现在两个方面:避免单点的高可用设计和自治独立原则。软件系统要做到足够健壮, 在发生一些硬件或网络故障时就需要能够做到冗余,继续提供服务。即发生故障的次数足够低

比如某个服务,可能有 3 个系统单元。每个单元都不应该存在单点,某个服务器宕机不应当导致服务不可用。由于 IDC 故障的频繁,现在越来越多的设计在考虑当某个 IDC 不可用时,服务要能够继续提高服务,即跨 IDC 机房的高可用。另外软件设计时要求足够自治独立,不可过多依赖网络和其他服务单元,对于互联网服务,阻塞是最大的敌人,在一个系统中由于一个微不足道的连接阻塞,而导致整个系统服务不可用,这样的例子实在是太多,所以对于互联网服务,需要牢记:服务要足够自治独立,避免阻塞。

下图简单说明了 SAE 平台的负载均衡服务是如何避免单点故障的。

可维护性:软件要易于管理维护,能够和现有的运维系统整合,比如说配置管理、日志管理等,避免自立规范。软件的管理维护简单,对于发生故障时缩短恢复时长是有重要帮助的。

2、服务实施时引入破坏测试

好的软件设计开发完成后,在部署环节,一定要实际测试在设计时定下来的目标,比如说避免单点,就需要部署时,实际去破坏。对其他各种容错的处理是否真的到位。我们常见的做法是关机测试、重启检验服务自恢复能力、拔网线等测试,同时观察软件系统是否运行正常。这主要仍然是围绕服务可靠性进行测试。

3、实时的、立体的、可视化监控

一个服务,除了自身软件外,还包含了监控,监控应当视为服务的一部分。服务上线一定是包含了监控。监控是最好的质量保证措施。SAE 平台在 Alpha 版上线时就有了各种监控,监控是平台不可分离的一部分。对于监控,我们积累了一些经验.

实时:要能够及时发现问题、抢在用户的前面发现问题

立体:这要求我们的监控是多层次的立体式的,立体监控最大的好处是快速定位故障原因,有助于快速解决问题。毕竟同样的现象,背后可能有很多种可能。我们的监控包含:系统监控 (负载, 磁盘 IO 等)、网络 TCP 三次握手监控 (只要节点之间发生网络关系的都需要监控)、服务自身可用性监控、错误日志趋势监控 (当服务的错误数量突然增加时可以捕捉到)

可视化:这是从监控工具的易用性而言。可视化更加有利于发现和分析问题。

自我恢复:这主要体现在服务监控里。服务的监控包含两个部分,首先是根据服务所承诺的各项功能的黑盒测试,这主要是模拟用户发起。其次是服务所在的节点上有部署自我检查自我修复的程序,当自我诊断认为有故障时,程序会尝试多种恢复方法。这极大降低了故障服务时长,有效提高了服务可用的时间。SAE 平台底层有这样一套系统在不间断地运行。

报警:监控是为了更快发现问题,能够自动处理的让机器自动完成,不能自动完成的就需要人工处理,这就需要有报警机制。SAE 内部开发了一个叫“报警网关”的系统,所有的监控都是直接对接该报警网关。网关的优点是可以做分析、排重,并且是有上下文的报警。我们报警的原则:过犹不及。当运维人员收到过多报警,并且包含了大量的误报时,这样的报警时没有价值的,要坚决抵制。

故障响应:相关人员接到报警后,根据故障级别进行响应。

严重故障,影响到平台的稳定运行,白天要求 5 分钟内响应,夜间 15 分钟响应。

次级故障,不影响应用的运行,但可能影响到用户的管理和使用白天要求 15 分钟响应,夜间要求 2 小时响应

警告级别故障,这种报警不影响服务,不影响使用,但需要提示有隐患。白天要求 1 小时,夜间不要求响应,但要求早晨立刻处理,避免故障升级。

快速的故障发现、自我修复和故障响应,是在故障一旦发生后,缩短服务恢复时长,提高服务的可维护性角度而言的,从而间接提高了服务的可用性。对于互联网服务而言,强大的运维团队是服务可用性的重要保障之一!

下图是 SAE 平台访问量和访问用户的实时监测图表。

4、针对频繁的系统变更、软件迭代升级

我们知道服务如果没有变更,出问题的概率一般就很低。但是互联网服务变更恰恰是很频繁的,这恰好体现了她的生命力。所以如何在不断变更升级的条件下保证平台的稳定可用显得更为迫切。SAE 每周的各种变更升级在十次以上。SAE 为更好地保证平台稳定性,我们引入了旁路系统和灰度发布机制。

旁路系统:用户的请求进入负载均衡后,除了会走正常流程外,同时会引导到另外一个环境,该环境和生产环境非常相近,除了规模外。我们引入旁路系统的原因在于配置变更、软件升级等很频繁,在生产环节每一个变更不管多么简单都是有风险的。其次是系统级别的软件更新升级等,为了尽可能多尽可能早地发现一些隐藏的很深的 bug,旁路系统是一个不错的方案。因为旁路系统足够真实。并且还可以在旁路环境进行一些压力测试,毕竟线上做压力测试危险太大,线下做测试,测试数据不够真实。在旁路系统变更完成后,如何判断变更是安全的,是一件相对比较有挑战的事情。我们的经验往往是观察变更涉及的服务,错误日志比例是不是有明显上升。如果变更后服务无法使用或者挂了,问题就更加明显。

灰度发布:旁路系统虽然足够真实,但毕竟不是完全真实的生产环境,变更有没有对应用造成影响,有时需要用户反馈来配合。尽管旁路系统可以发现 99% 的问题,但不可否认仍然有可能有隐藏的很深的我们无法发现。这就需要引入灰度发布。所谓灰度发布,就是在升级时,只引导部分应用来使用,通过逐步增加使用的应用数量同时观察用户的反馈,来验证变更是否存在问题。但是对于有状态的服务,灰度发布实施比较困难。

旁路系统和灰度发布都是从提高平台服务可靠性角度出发,对变更做好风险控制,尽量降低故障发生的次数。

5、数据可用性

数据可用性主要体现在数据冗余上。SAE 平台数据类的服务包括 MySQL、KVDB 和 Storage,服务都提供有热备和冷备,并可以从冷备中恢复 14 天内的数据。数据自助恢复功能目前正在开发中,目前可以提供收费的人工数据恢复服务。

6、多线路接入保证网络访问质量

由于南北电信互联互通问题,用户一旦跨网访问,往往不可到达或由于电信运营商网络故障或 IDC 级别的故障,用户到 IDC 之间的网络不可到达,或丢包率很高。

网络可用性更多的会依赖电信运营商的服务能力。但对于互联网服务而言,必须要解决这样的困难才可以真正提供好的服务。

目前 SAE 网络接入支持电信、联通、教育、移动等,真正实现了国内大的运营商网络的覆盖,这在国内是很罕见的。用户不须操心网络接入的复杂问题,并且在某些链路访问质量出现问题时,SAE 平台通过云监控能够及时发现,并会做出调整。最大限度保证全国范围内的用户的网络可到达。

下图展示了 SAE 是如何保证多路访问质量的。

三、对于云计算的用户的建议

尽管国外云计算的使用已经非常普及,但不可否认,国内的云计算市场尚处于起步阶段。这固然和国内企业和开发者的认知和接受度有关,但也和国内云计算发展不够务实,不贴近用户需求脱离不了干系。

客户在选择是否使用云计算时,往往有很多担忧,总觉得没有放在自己的手里放心。但我们从实践中也发现,大部分企业的网站,其可用性可到达率都不算高,虽然没有专业机构提供的中国网站可用性这样的报告。如果完全自己去实现自己的系统,上面遇到的大部分可用性挑战,相信都会遇到,而且未必能做得更好。所以如果云计算足够成熟,建议采用云计算,让您的企业更“轻”点,服务更可靠点。

SAE 平台目前的可用性已经可以达到 99.95%,我们正在朝 99.99% 的目标努力,SAE 对于更高可用性的追求是没有止境的。

云计算平台的可用性,相比传统互联网服务而言,更加复杂和困难,也更具有挑战性。以后有机会再谈谈云计算可用性设计有哪些特别的地方。


感谢金明对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2012-02-09 00:0011113

评论

发布
暂无评论
发现更多内容

架构师训练营 作业四

开拓纪

S/4HANA for Customer Management里的搜索分页处理

Jerry Wang

CRM SAP abap S/4HANA

S4HANA和CRM Fiori应用的搜索分页实现

Jerry Wang

CRM SAP Fiori SAP UI5 S/4HANA

在浏览器里使用SAPGUI里的SE80

Jerry Wang

JavaScript SAP abap Fiori SAP UI5

SAP Fiori里的List是如何做到懒加载Lazy load的

Jerry Wang

JavaScript SAP Fiori SAP UI5

人生算法:做事要闭环

石云升

读书笔记 职场经验 5月日更 人生算法

设计千万级学生管理系统的考试试卷存储方案

俞嘉彬

如何在Chrome development tool里查看C4C前台发送的未经 GZIP 压缩之前的请求细节

Jerry Wang

chrome SAP C4C Chrome开发者工具

如何使用Putty登录安装在VirtualBox里的ubuntu

Jerry Wang

ubuntu windows 虚拟机

如何给VirtualBox虚拟机的ubuntu LVM分区扩容

Jerry Wang

虚拟机 Cloud virtualbox CloudFoundry

CRM, C4C和Hybris的工作流简介

Jerry Wang

CRM SAP C4C Hybris Commerce Cloud

优化docker镜像的几种方法

运维研习社

Docker 镜像 优化技巧 5月日更

金融科技如何在产业互联网蓝海中扬帆远航?大数据、区块链与物联网应用被看好

CECBC

ABAP和Java里关于DEFAULT(默认)机制的一些语言特性

Jerry Wang

SAP abap Netweaver SAPGUI

那些年我用过的SAP IDE

Jerry Wang

ide SAP abap SAPGUI

如何证明CRM WebClient UI上的应用是有状态(Stateful)的

Jerry Wang

CRM SAP abap WebClient UI

ABAP git客户端的简单介绍

Jerry Wang

GitHub SAP abap

如何使用腾讯云提供的云主机

Jerry Wang

腾讯云 云主机 Cloud

架构实战营 - 模块四作业

Sun

ABAP宏的调试

Jerry Wang

调试 SAP abap macro

如何使用SAP Cloud for Customer里的ABSL代码调用Web service

Jerry Wang

SAP C4C Cloud for Customer

如何使用代码获得一个function module的Where Used List

Jerry Wang

CRM SAP abap SAPGUI

观察者模式在One Order回调函数中的应用

Jerry Wang

CRM SAP abap

SAPGUI里实现自定义的语法检查

Jerry Wang

SAP abap SAPGUI 语法检查

如何在ubuntu上安装virtualbox的driver module vboxdrv

Jerry Wang

ubuntu 虚拟机 vboxdrv 驱动

会说话的ABAP report

Jerry Wang

SAP abap SAPGUI

如何用ABAP代码读取CDS view association的数据

Jerry Wang

CDS SAP abap CDS view

高性能 JavaScriptの六 -- 老生常谈Ajax

空城机

JavaScript ajax 大前端 5月日更

CRM订单状态的Open, In process和Completed这些条目是从哪里来的

Jerry Wang

CRM SAP ERP abap

如何将iso文件安装到Virtual里的ubuntu去

Jerry Wang

Linux ubuntu windows 虚拟机 Windows 10

ABAP的语法高亮是如何在浏览器里显示的

Jerry Wang

SAP abap SAPGUI 语法高亮

应用云平台的可用性——从新浪SAE看云平台设计_服务革新_王利俊_InfoQ精选文章