写点什么

微服务高效运维,从性能保障谈起

  • 2020-03-30
  • 本文字数:1879 字

    阅读完需:约 6 分钟

微服务高效运维,从性能保障谈起

微服务架构面临的挑战

1.微服务核心价值:3S

2.微服务架构带来的运维挑战

1.单服务流量激增时扩容


2.调用链条变长,调用关系更加复杂


3.微服务拆分导致故障点增多


  • 单服务变更性能影响如何评估?

  • 性能瓶颈在各微服务间漂移,如何做好性能测试?

  • 应对突发流量需求,扩容能否解决问题,如何扩容?

  • 服务实例数量众多,如何收集信息,快速定位性能问题?

华为云微服务性能保障解决方案设计

华为云微服务性能保障解决方案介绍


1.什么是 ServiceMesh

  • 一种基础设施层,服务间通信通过 Service mesh 转发

  • 一种 TCP/IP 之上的网络模型

  • 一个轻量的网络代理,与业务部署在一起

  • 可靠的传输复杂网络拓扑中的服务请求,将服务变为现代的云原生服务


2.华为 ServiceMesh 整体架构

3.管理面服务治理能力


可人工介入,未运行时的 mesher 和侵入式框架提供配置下发


  • 注册中心

  • 下发配置

  • 监控服务

  • 调用引擎

4.数据面支持侵入式与非侵入式 Mesher


即侵入式框架与非侵入式 mesher


  • 注册发现

  • 执行路由策略

  • 负载均衡

  • 透明 TLS 传输

  • 生成监控数据

5.微服务架构的关键性能瓶颈点

  • 1.Mesher 的性能损耗(1ms)

  • 2.单服务的接口性能

  • 3.全链路调用性能

  • 4.服务伸缩能力


6.关于性能我们需要做哪些


  • 开展分层验证,掌握服务的能力基线

  • 1.单服务接口测试

  • 验证单服务的各个接口能力基线以及组合接口的能力基线

  • 2.全链路测试

  • 验证全链路场景以及多链路组合场景的性能,优化链路中性能不足的服务

  • 3.伸缩能力验证

  • 验证单服务的水平扩容能力,验证既定模型下的多链路组合场景的资源模型

  • 性能测试服务化,提升验证效率



  • 关键设计 1:模块化管理,事务灵活组合与复用

  • 抽象性能测试所需的元素并模块化,实现灵活复用和配置修改



  • 关键设计 2:可扩展的高性能执行集群


性能测试实施策略

1.关键度量指标

  • 制定测试目标,要求测试指标结果达到用户预期目标。

  • 指标数据一般包括并发用户数、Response Time、TPS、通过率等。

  • 系统的吞吐量要和响应时间关联(SLA),如至少 90%以上的请求在正常合理响应时间内。


2.全链路调优测试策略

性能是一个逐步提升的过程,测试过程中需要找到扩容的模型,从不足 50 的 TPS 提升至万级


3.测试报告分析解读

如何从测试工具侧快速分析被测对象可能存在的问题


  • 存在部分响应超时:

  • a)服务器繁忙,如某个服务节点 CPU 利用率高

  • b)网络 IO 超过 VM/EIP 带宽

  • c)等待后端微服务、数据库的超时时间设置过长

  • 运行一段时间后全部响应超时或者检查点校验不通过:

  • a)大压力导致系统中某个微服务奔溃

  • b)后端数据库无响应

  • TPS 未随着并发数增长而上升:

  • a)系统性能到达瓶颈,持续并发加压过程中响应时延增加(可观察响应区间统计)

  • b)可通过进一步加压是否会出现非正常响应验证

  • TP90 响应时延较短,TP99 时延高:

  • a)系统性能接近瓶颈

  • b)可通过进一步加压是否会出现非正常响应验证




4.一些常见的性能优化手段

  • 1.扩容,链路中的某一应用可能出现 cpu 使用率较高或者连接池资源不够用(rpc、jdbc、redis 连接池等)但本身对于拿到连接的请求处理又很快,这一类需要横向扩展资源。

  • 2.应用逻辑优化,比如存在慢 sql、 逻辑的不合理如调用 db 或者 redis 次数过多、没有做读写分离造成写库压力过大。

  • 3.超时时间的合理设置,对于应用之间的 rpc 调用或者应用与其他基础组件之间的调用,均需要设置合理的超时时间,否则过长的等待将造成整个链路的故障。

  • 4.缓存的应用,请求尽可能从前端返回,而不是每一个都要让后端应用处理后再返回,减轻后端应用及数据库压力,提高系统吞吐能力。

  • 5.限流,对于超出承载能力的 QPS 或并发,可以进行拦截并直接返回提示页面。

  • 6.降级,对于非核心链路上的应用,允许故障关闭而不影响核心链路

  • 7.扩容和优化也是有限度的,在评估容量内,保障核心交易链路正常是重中之重,对于非核心功能模块考虑降级场景

5.面对复杂网络架构如何做性能测试

一个典型的互联网平台:突发事件高流量突发,如瞬间由百级用户增长到万级



对于网络架构复杂的应用,可以拆分压力的入口点,进行分段验证,屏蔽对应网元带来的性能影响,如分别从最外端的①CDN 入口、②中间的 ELB、③业务层,分别做测试,验证复杂网络架构情况下,各网元的瓶颈和影响

6.应用内部的性能瓶颈如何提升定位效率?

1.资源、应用、业务一站式监控与分析


立体运维全景图



2.应用拓扑与异常展示、故障下钻


  • 应用发现与依赖关系:非侵入采集应用 KPI 数据,并通过服务间接口自动生成依赖关系,展现应用拓扑。

  • 应用 KPI 汇聚:微服务实例汇聚到应用(数字表示 XX 个实例),KPI 数据自动汇聚到应用。

  • 调用链跟踪:下钻获取应用调用链,定位到具体出错方法



本文转载自 华为云产品与解决方案 公众号。


原文链接:https://mp.weixin.qq.com/s/uoSkaHDSFb3tTYt0sbBp0Q


2020-03-30 15:021136

评论

发布
暂无评论
发现更多内容

Linux服务器部署Web版VSCode,在window下使用浏览器在linux环境下编写代码

快乐非自愿限量之名

Linux 运维 服务器

10大开源文档管理系统

爱吃小舅的鱼

开源 文档管理 文档管理工具

ETLCloud结合Oracle实现CDC

RestCloud

oracle 数据同步 ETL CDC

NTFS Disk by Omi NTFS for Mac(NTFS 磁盘管理器) v1.1.4激活版

iMac小白

如何构建一台机器学习服务器

EquatorCoco

机器学习 数据库 服务器

人大金仓助力吉林省属国企核心财务系统批量上线

科技热闻

RowHammer 攻击:内存的隐形威胁

EquatorCoco

攻击 RAM

云原生最佳实践系列 5:基于函数计算 FC 实现阿里云 Kafka 消息内容控制 MongoDB DML 操作

阿里巴巴云原生

kafka 阿里云 云原生

Abaqus模拟新能源汽车电池理论概念

思茂信息

abaqus abaqus软件 abaqus有限元仿真

SD-WAN如何适应运营商网络

Ogcloud

SD-WAN 企业组网 SD-WAN组网 SD-WAN服务商 SDWAN

对话 Mines of Dalarnia: Web3 游戏创新,社区驱动与公链共建

Footprint Analytics

gamefi #Web3

TikTok直播专线的优势

Ogcloud

海外直播专线 tiktok直播 tiktok直播专线 海外直播网络 tiktok直播网络

华为云&华为终端云创新峰会:华为阅读再迎三个内容伙伴,携手繁荣阅读行业生态

最新动态

玩转云端|演唱会一票难求?快用天翼云边缘安全加速平台AccessOne!

天翼云开发者社区

云计算 安全

黑盒Prompt优化:提升大模型反馈效果的新思路

百度开发者中心

大模型 Prompt

高效运维|AIRIOT智慧电力运维解决方案

AIRIOT

数据分析 物联网平台 电力 智慧电力 智能控制

文心千帆:从PPT制作到数字人主播,ERNIE-Bot|BLOOMZ大模型调优与RLHF训练全攻略

百度开发者中心

大模型 千帆

听完这期音视频发展史,才更清楚元宇宙到底还行不行|编码人声

声网

软件测试学习笔记丨软件测试基础概念

测试人

软件测试

提高LED显示屏安全性的关键措施

Dylan

安全 事故 消费者 LED显示屏 led显示屏厂家

TikTok直播专线:解决海外直播稳定问题的关键

Ogcloud

海外直播专线 tiktok直播 tiktok直播专线 海外直播网络 tiktok直播网络

CAE科普!电池仿真的必要性

智造软件

CAE CAE软件 有限元技术

IPQ9574 vs. IPQ8074: A comparison and selection guide between the two chips

wifi6-yiyi

IPQ8074 ipq9574

MCtalk·CEO对话×e签宝丨如何修好SaaS生态建设这门CEO必修课?

ToB行业头条

微服务高效运维,从性能保障谈起_语言 & 开发_华为云产品与解决方案_InfoQ精选文章