最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

微服务与站点可靠性工程

  • 2018-05-16
  • 本文字数:1190 字

    阅读完需:约 4 分钟

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

在过去的几年间,我们已经讨论过站点可靠性工程(Site Reliability Engineering,SRE)的角色,尤其这个群体如何从Google 这种领域的公司得到发展,进而满足金融和医疗等行业公司的期望。最近科技记者 Alex Handy 撰写了 SRE 和微服务架构如何适配的文章:

[…] 尽管 SRE 和微服务在世界范围内的软件公司中并行发展,但是前者实际上让后者的生活更加艰难。

Alex 认为造成这一点的原因是非常清晰的:

[…]SRE 的存亡依托于所要维护和优化的整个系统的全栈视角。这个角色将开发人员的技巧和管理员的技巧结合在了起来,这样所产生的员工能够在事情偏离方向的时候,调试生产环境中的应用。

Alex 接着介绍了 SRE 的一些背景知识以及该功能如何在像 Google 这种规模的公司中运转,他引用了 Google 的一位 SRE 主管 Todd Underwood 的观点,阐述了 Google 如何安排实践和系统,帮助开发团队能够在分布式系统中既能考虑到可靠性和可用性,又能采用像 Paxos 这样的技术方式实现一致性。

Underwood 强调 SRE 工作的另外一个重要方面,也就是可见性。当微服务在不断变化的基于的云的服务器、容器和数据库中运行时,会抛出数以亿计的数据包,不管处理哪种类型的问题,首先找到哪里有问题都是至关重要的。这也就是 SRE 工作的全栈性要发挥作用的地方了。

按照 Google 的一位产品主管 Morgan McLean 的说法,这里的关键在于微服务的监控和跟踪,关于这个话题,过去有人也提到过我们也曾经在其他地方讨论过。在 Alex 的文章中,他提到了 Google 发布的一些新工具,以便于解决这个问题:

[…]Google 最近发布了 Stackdriver Trace Stackdriver Debugger Stackdriver Profiler 。这些工具的名字听起来很像传统企业厂商的老式测试和运维工具,其实这是有原因的:它们所执行的正是传统的故障诊断任务,也就是开发人员和运维人员所熟悉的工作内容,但是它们聚焦于微服务,并且在云端完成它们的任务。

Alex 引用 Morgan McLean 的内容总结了这些工具是如何确保 SRE 团队更好地管理新的基于微服务的架构的,尽管跟踪非常重要,但是 Google 相信他们所提供的工具目前在 profiling 和调试方面是独一无二的,能够为开发人员和 SRE 带来重要的收益。在文章的结尾处,Alex 通过 Google 和其他的行业参考资料进一步介绍了监控、指标(metrics)和可见性,这是非常重要的,因为它们可能会与越来越多的公司息息相关。

我们看到越来越多的开发人员和公司采用微服务,其中很多正在使用,或者将要使用 SRE 团队,了解架构和工具如何演化以保证可靠性、可用性以及一致性是非常有意思的事情,这样的话,开发人员和 SRE 团队才能和谐相处。如果在这方面你有经验要分享,不管是正面的还是负面的,对于整个社区来说,能够倾听这些经验都是非常有用的。

查看英文原文 Microservices and Site Reliability Engineering

2018-05-16 19:002359

评论

发布
暂无评论
发现更多内容

基于飞桨实现的特定领域知识图谱融合方案:ERNIE-Gram文本匹配算法

飞桨PaddlePaddle

组装式应用新趋势:小程序技术科提高软件开发效率

FinFish

小程序容器 组装式应用 小程序技术

如何自动化测试你的接口?—— Rest Assured

JAVA旭阳

Java springboot

架构实战 - 模块 9 毕业项目

mm

#架构实战营

智能健康管理正当时,脉冲技术的一次自证与他证

脑极体

skg 按摩仪

如何防止订单重复支付?

采菊东篱下

Java 编程

深扒RocketMQ源码之后,我找出了RocketMQ消息重复消费的7种原因

程序员小毕

程序员 RocketMQ 后端 架构师 消息中间件

浪潮 KaiwuDB x 河工大 | 推进能源行业数字化转型建设

KaiwuDB

解决方案 数字能源 KaiwuDB

面试造飞机? 网易在职顶级大佬“java面试真题 2023” (助上岸)

三十而立

Java 内联类初探

三十而立

Java

OpenAI创始人:GPT-4的研究起源和构建心法

OneFlow

人工智能 深度学习 ChatGPT Greg Brockman

一种异步延迟队列的实现方式

京东科技开发者

架构 软件架构 企业号 3 月 PK 榜 延迟处理

电脑风扇控制软件:Macs Fan Control Pro中文激活版

真大的脸盆

Mac Mac 软件 电脑风扇控制 风扇转速控制

政企中小微客户业务一线支撑赋能

鲸品堂

通信 运营商 电信运营商 企业号 3 月 PK 榜

谁能让企业运营快速提效,那当然瓴羊Quick BI

巷子

如何将营销模板以小程序的形式上架至App?

FinFish

小程序容器 小程序技术 营销模板

PopupWindow(悬浮框)的基本使用

二哈侠

android AlertDialog PopupWindow

[译]探索 Go 中 io/fs 包以提高测试性能和可测试性

黑客不够黑

golang 测试 io/fs

无处不在的边缘网络感知

阿里云视频云

云计算 边缘云 边缘网络

瓴羊Quick BI,让企业运营提效的好工具

对不起该用户已成仙‖

探索大语言模型垂直化训练技术和应用-陈运文

NLP资深玩家

人工智能 ChatGPT

PyTorch 深度学习实战 |用TensorFlow训练神经网络

TiAmo

神经网络 tensorflow MNIST

Go 第三方 log 库之 logrus 使用

江湖十年

后端 日志 Go 语言

软件测试/测试开发丨接口协议之抓包分析 TCP 协议

测试人

软件测试 自动化测试 测试开发

dubbo Triple 统一参数验证

昵称不能为null

dubbo triple协议 参数验证

阿里云资深技术专家闫卫斌:打造具备极致容灾能力的对象存储

云布道师

阿里云 云存储

深入了解 JavaScript 内存泄漏

京东科技开发者

JavaScript 前端 内存 计算

朴素系统优化思维的实践

京东科技开发者

方案 构架 系统优化

如此丝滑的按钮交互效果

南城FE

css3 前端 设计 动画 交互

技术领导力之路 - 安全感

阿里技术

技术成长

一个基于序列的弱监督视觉信息抽取学习框架

合合技术团队

人工智能 计算机视觉 OCR

微服务与站点可靠性工程_DevOps & 平台工程_Mark Little_InfoQ精选文章