写点什么

DevOps 中如何系统开展微服务性能测试?

  • 2020-03-27
  • 本文字数:1632 字

    阅读完需:约 5 分钟

DevOps中如何系统开展微服务性能测试?

基于 Devops 的微服务架构是云时代部署应用的一项热门技术,它把庞大的单个应用程序分解为数十个微服务,使业务更快速地响应市场变化。但是每个微服务有不同的客户需求并且随着微服务增多,无法做 1:1 验证,传统性能测试模式已不能满足 Devops 平台的要求。 DevOps 中如何系统开展微服务性能测试?

微服务架构下的性能测试挑战

微服务是实现 DevOps 的重要架构

1.微服务 3S 原则



2.DevOps 核心点



  • 亿级用户的平台

  • 单服务业务随时扩容

  • 服务之间存在相互调用关系

  • 版本更新快,上线周期短



单服务流量激增时扩容


调用链条变长,调用关系更加复杂


微服务拆分导致故障点增多


单服务变更性能影响如何评估?


性能瓶颈在各微服务间漂移,如何做好性能测试?


应对突发流量需求,扩容能否解决问题,如何扩容?


服务实例数量众多,如何收集信息,快速定位性能问题?

微服务性能保障解决方案设计



•关键设计 1:模块化管理,事务灵活组合与复用



关键设计 2:应用与资源一体化编排


性能测试实施策略

  • 单服务接口测试(契约)

  • 验证单服务的各个接口能力基线以及组合接口的能力基线,服务间遵循契约化原则,大部分问题屏蔽在集成之前

  • 全链路测试(SLA)

  • 验证整个系统之上全链路场景以及多链路组合场景的性能,优化链路中性能不足的服务

  • 伸缩能力验证(面向现网运维)

  • 验证单服务的水平扩容能力,验证既定模型下的多链路组合场景的资源模型


在微服务架构下,自动化仍然是提升效率,看护质量的重要手段,每个微服务独立快速迭代上线,更加要求微服务的性能不劣化。




  • 存在部分响应超时:

  • a) 服务器繁忙,如某个服务节点 CPU 利用率高

  • b) 网络 IO 超过 VM/EIP 带宽

  • c) 等待后端微服务、数据库的超时时间设置过长

  • TPS 未随着并发数增长而上升:

  • a) 系统性能到达瓶颈,持续并发加压过程中响应时延增加(可观察响应区间统计)

  • b) 可通过进一步加压是否会出现非正常响应验证

  • 运行一段时间后全部响应超时或者检查点校验不通过:

  • a) 大压力导致系统中某个微服务奔溃

  • b) 后端数据库无响应

  • TP90 响应时延较短,TP99 时延高:

  • a) 系统性能接近瓶颈

  • b) 可通过进一步加压是否会出现非正常响应验证


  1. 扩容:链路中的某一应用可能出现 cpu 使用率较高或者连接池资源不够用(rpc、jdbc、redis 连接池等)但本身对于拿到连接的请求处理又很快,这一类需要横向扩展资源。

  2. 应用逻辑优化:比如存在慢 sql、逻辑的不合理如调用 db 或者 redis 次数过多、没有做读写分离造成写库压力过大。

  3. 超时时间的合理设置:对于应用之间的 rpc 调用或者应用与其他基础组件之间的调用,均需要设置合理的超时时间,否则过长的等待将造成整个链路的故

  4. 缓存的应用:请求尽可能从前端返回,而不是每一个都要让后端应用处理后再返回,减轻后端应用及数据库压力,提高系统吞吐能力。

  5. 限流:对于超出承载能力的 QPS 或并发,可以进行拦截并直接返回提示页面。

  6. 降级:对于非核心链路上的应用,允许故障关闭而不影响核心链路。

典型互联网平台的全链路分段压测

一个典型的互联网平台:突发事件高流量突发,如瞬间由百级用户增长到万级



对于网络架构复杂的应用,可以拆分压力的入口点,进行分段验证,屏蔽对应网元带来的性能影响,如分别从最外端的 CDN 入口(1)、中间的 ELB(2)、业务层(3)分别做测试,验证复杂网络架构情况下,各网元的瓶颈和影响,系统内部的性能瓶颈如何提升定位效率?

APM 调用链跟踪解决问题定位最后一公里

在上线和活动前期通过云性能测试服务进行压力测试,发现部分接口的响应时间比较长,会出现比对失败和响应超时,通过 APM 的调用链分析,发现有部分 SQL 语句比较耗时,针对这些 SQL 查询语句,建立了索引,快速定位问题并迅速解决。


最终经过两轮测试优化后,官网首页访问响应超时与正常返回比提升了 43.3%,预约试驾场景响应超时与正常返回比降低到 0,提升了 100%。


性能瓶颈定位时间,从官网未使用 APM 时需要 1 周,缩短到俱乐部使用 APM 后的 0.5 天,效率提升 90%。


  • 资源分析:

  • 调用链分析:


本文转载自华为云产品与解决方案公众号。


原文链接:https://mp.weixin.qq.com/s/WR5YePZeyvaMJu8-LVxCJQ


2020-03-27 22:042869

评论

发布
暂无评论
发现更多内容

Apache Pulsar 社区周报:09-26 ~ 10-09

Apache Pulsar

大数据 开源 云原生 Apache Pulsar 消息中间件

Flink周期性水位线分配器-6-3

小知识点

scala 大数据 flink

12张图带你彻底理解分布式事务产生的场景和解决方案!!

冰河

分布式事务 2PC 可靠消息最终一致 TCC 最大努力通知

系统架构--作业

Nick~毓

阿里大牛精心整理了46张PPT,教你弄懂JVM、GC算法和性能调优

Java架构之路

Java 程序员 面试 编程语言 JVM

程序员黄金年龄25-28岁,我们30+的人该去哪儿?附华为案例;

Java架构师迁哥

怎么才算掌握了JDK中的线程池

AI乔治

Java 编程 架构 jdk 线程池

架构师训练营第四周作业

脸不大

图解面试题-二叉树的所有路径

9527

Java 面试 算法 LeetCode 二叉树

让超宽带抵达产业互联网:UBBF上演智能联接全面落地

脑极体

芯片破壁者(十七):“硅谷市长”罗伯特•诺伊斯开启的产业法则

脑极体

使用Spring Boot创建docker image

程序那些事

Docker spring Spring Boot Spring Boot 2

如何花“一点点小钱”突破华为云CCE服务的“防线”

华为云开发者联盟

容器 k8s

Java-技术专题-JDK8-HashMap的实现原理

码界西柚

架构师训练营第四周命题作业

一马行千里

极客大学架构师训练营 命题作业

架构师训练营第四周学习笔记

一马行千里

学习 极客大学架构师训练营

算法图解:如何找出栈中的最小值?

王磊

Java 数据结构 算法

ClickHouse最佳实战之分布表写入流程分析

京东科技开发者

数据库

年轻代频繁ParNew GC,导致http服务rt飙高

AI乔治

Java 学习 架构 JVM GC

打通IO栈:一次编译服务器性能优化实战

AI乔治

Java 编程 架构 io 高性能

重大事故!IO问题引发线上20台机器同时崩溃

AI乔治

Java 架构 多线程 io 并发

一次百万长连接压测 Nginx OOM 的问题排查分析

AI乔治

Java nginx 架构 服务端 高性能

代表Java未来的ZGC深度剖析,牛逼!

AI乔治

Java 架构 ZGC JVM GC调优

Pulsar 社区周报|09-19 ~ 09-25

Apache Pulsar

大数据 开源 Apache Pulsar 消息中间件

异步excel导出组件设计和实现

Wayne Chu

Java 微服务 EasyExcel SpringCloud 服务治理

一周信创舆情观察(9.28~10.11)

统小信uos

架构师训练营第 1 期第四周课后练习题

Leo乐

极客大学架构师训练营

一次线上JVM调优实践,FullGC40次/天到10天一次的优化过程

AI乔治

Java 编程 架构 JVM GC

Netty源码解析 -- 客户端启动过程

binecy

Netty nio 源码阅读

如何优雅的搞垮服务器,再优雅的救活

MySQL从删库到跑路

Linux 升级glibc 启动异常 无法进入系统 抢救模式

为什么学习总是停在开头两页?

Nydia

DevOps中如何系统开展微服务性能测试?_DevOps & 平台工程_华为云产品与解决方案_InfoQ精选文章