写点什么

Slack 对 Chef 架构进行改进,提高其安全性和稳定性

作者:Matt Saunders

  • 2024-11-29
    北京
  • 本文字数:1393 字

    阅读完需:约 5 分钟

Slack 对 Chef 架构进行改进,提高其安全性和稳定性

在近期的一篇博文中,Slack 的工程部详细介绍了他们在 Chef 基础架构上的重大改进,将管理着上万个 EC2 实例中运行的服务、数据库和应用程序的架构从单一的 Chef 堆栈转移为了弹性更强的分片基础架构。


这次的架构转移,Slack 希望能解决一些之前难以解决的限制问题:


  • 为节点分配分片

  • 发现周围邻居

  • 找寻 Chef

  • 上传常用代码合集(Cookbook)


在先前的设置中,Slack 是在沙盒、开发和生产这三个环境中使用一个 Chef 栈。这种架构风险很高,因为更改是会在不同环境中同时部署的,堆栈中的任何问题都可能影响整个基础架构。这套系统是用一个叫 DishPig 的流程来处理每小时触发的 cookbook 更新。



为了解决这些限制,工程团队进行了以下几项关键改动:首先是创建多个 Chef 堆栈,以便于分散负载并确保系统的弹性,新的实例采用 AWS Route53 加权 CNAME 记录并分配给特定分片。此外,Slack 工程团队还将开发和生产环境的 Chef 基础架构分离成不同的堆栈。


为解决在新分片基础架构中发现节点的难题,Slack 工程团队采用了 Consul 来做服务发现。这点需要仔细地实施,从而避免与 Nebula 重叠网络之间产生循环依赖关系。团队开发了定制的 Chef 库函数,从而简化基于各种条件的节点查询,有效地取代了先前的 Chef 搜索功能。


Slack 还创建了一项名为 Shearch(“分片 Chef 搜索”的简称) 的新服务,用于在多个 Chef 堆栈中进行搜索,还可以整合在不同分片上的搜索结果。Slack 团队还开发了一项叫做 Gnife 的新工具,取代传统 Chef Knife 命令来实现跨多个分片的操作。


团队采用 Chef Librarian 取代了 DishPig 系统,这项服务可以独立管理 cookbook 的版本和环境更新,从而实现更为可控的部署。在合并变更时,GitHub Actions 会生成一个包含全部代码库副本的压缩包,并用时间戳格式(YYYYMMDD.TIMESTAMP.0)更新 cookbook 的版本。


Chef Librarian 提供了更新环境到特定版本和环境相互匹配功能的 API 端点,利用 Chef Librarian,Slack 可以在沙盒和开发环境中对更改进行测试,然后再推送到生产环境,从而降低了出问题的更改影响所有环境的风险。这项服务会将工作版本和部署信息存储到 DynamoDB 中,可以更为方便地跟踪和查看。



当用户的变更被推送到环境中时,Slack 应用会通知用户并使用 Git 中的 commit 备注判断并标注对应的团队成员。Kubernetes CronJob 负责跨环境的版本推送和安全检查,以便在发现问题时阻止推送。


Slack 将角色简化到基本信息和运行列表,让 Chef 角色(无法通过版本控制)的风险降到最低。只有在相关环境更新时,角色才会上载到相关的 Chef 堆栈中。


Slack 在考虑更进一步地改进其 Chef 基础设施,其中一项是按照 AWS 可用性区域划分生产的 Chef 环境,这样可以对变更的部署进行更为细粒化的控制。Slack 还在探索采用 Chef PolicyFiles 和 PolicyGroups 的可行性,不过这将会对他们当前的设置带来巨大的改变。


和十年前的风光不同,Chef 不再是那么地受欢迎,这可能是由于 Ansible 和其他云原生解决方案等替代品的兴起。IT 行业向容器化的转变改变了许多企业的配置管理方式,多数企业转投了 Kubernetes 和 Docker 的怀抱。Chef 在 2020 年被 Progress Software 收购可能也影响了它在长期的采用率。


即使如此,Chef 仍然拥有坚实的用户基础,这在已实施了 Chef 或者是有适合 Chef 方法的特定用例的组织中尤为突出。


查看英文原文链接:

https://www.infoq.com/news/2024/10/slack-chef-architecture/

2024-11-29 08:1513686

评论

发布
暂无评论
发现更多内容

如何使用 Checkmk 监控 SSL TLS 证书?

Ethereal

数字化时代,如何做好用户体验与应用性能管理

云智慧AIOps社区

监控宝 监控工具 自动化运维 数字化经济

OceanBase 存储引擎详解

OceanBase 数据库

Map-Reduce 思想在 ABAP 编程中的一个实际应用案例

汪子熙

mapreduce abap CRM系统 企业级应用 3月月更

Linux性能优化—内存实战篇

Linux服务器开发

性能优化 内存管理 Linux服务器开发 Linux内核 内核源码

这门面向应用开发者的 TiDB 使用教程,TiDB SQL、Connector API、架构体系…你一定不能错过!

PingCAP

2022 年值得关注的 9 个最新 Java 趋势

Ethereal

在 Manjaro 上安装 Chrome

信号量

chrome Linux

电科申泰加入龙蜥社区并成为理事单位,共创基础软硬件生态新未来

OpenAnolis小助手

开源 理事单位 申威 软硬件

2022年济南正规等保测评公司名单(排名不分先后)

行云管家

等保 等保测评 等保2.0 济南

OceanBase 在线体验环境,现已上线!

OceanBase 数据库

抓到Netty一个隐藏很深的内存泄露Bug | 详解Recycler对象池的精妙设计与实现

bin的技术小屋

中间件 池化技术 java netty 内存池

征文丨TiDB 社区专栏第一届征文大赛,快来一次性集齐所有周边吧!

PingCAP

netty系列之:java中的base64编码器

程序那些事

Java 程序那些事 3月月更

私有云与公有云,哪种云模型最适合企业的需求

Ethereal

数据对接 - 大屏云极简使用手册

shulinwu

可视化 数据可视化 大屏可视化 数据可视化控件 大屏

HSC推出「万物生长计划」 赋能虎符交易所HOO新应用场景

区块链前沿News

Hoo 虎符交易所 虎符智能链

【直播回顾】OpenHarmony知识赋能第四期第二课——GPIO驱动开发

OpenHarmony开发者

OpenHarmony GPIO 驱动开发

恒源云(Gpushare)_【存储优化】/hy-tmp可以扩/缩容啦

恒源云

云计算 存储 tmp

企业帮助中心的搭建步骤

小炮

帮助中心

ZEGO 自研客户端配置管理系统 —— 云控

ZEGO即构

后台开发 客户端配置 音视频架构

并发异步编程之争:协程(asyncio)到底需不需要加锁?(线程/协程安全/挂起/主动切换)Python3

刘悦的技术博客

多线程 协程 Python3 协程原理

零基础学编程?从这本豆瓣评分9.2的入门级神作开始

图灵社区

Python 零基础

两小时,掌握四个数字化工具!

明道云

鸿蒙开发必备书籍【收藏】

坚果

鸿蒙 3月月更

资产管理系统开发解决方案

低代码小观

企业管理 资产管理 CRM系统 企业管理软件

一站式运维管理工具平台 OCP 到底有多好用,看这篇文章就够了!

OceanBase 数据库

【三级等保】三级等保服务费用一年大概要多少?一年需要测评一次嘛?

行云管家

网络安全 等保 等级保护 三级等保

国内首届DataOps+MLOps meetup回顾

星策开源社区

人工智能 机器学习 DevOps Meetup MLOps

Web 键盘输入法应用开发指南(9)—— 标准与实现

天择

JavaScript 键盘 输入法 3月月更

Meetup预告| AIOps指标相关算法体系分享

云智慧AIOps社区

机器学习 大数据 算法 AIOPS 智能运维

Slack 对 Chef 架构进行改进,提高其安全性和稳定性_架构_InfoQ精选文章