2018年底架构实践深度复盘,Google、Netflix、阿里巴巴等海内外一线互联网公司架构实战 了解详情

运维

IT基础设施的演进,如何高效部署业务并保障稳定性。
收录了运维话题下的 268 篇文章
  • 文章
  • 迷你书
在一个成熟的分布式系统中 如何下手做高可用?

在一个成熟的分布式系统中,我们该如何去保证它的可用性?

作者: 张帆

9 小时前
如何在 AIOps 中最大限度地发挥日志系统的作用?

运维数据包含海量的日志信息,随着大数据分析水平的提升,需要更加精准地挖掘日志当中的信息。如何借用人工智能的方式解决自动化运维中无法解决的问题?

作者: 饶琛琳

2018 年 11 月 21 日
Facebook 广告平台遭遇 8 小时服务中断,或对黑色星期五购物节造成影响

当地时间 11 月 20 日中午开始,Facebook 和 Instagram 服务遭遇中断,用户无法登陆应用页面。中断也影响了 Facebook 的广告平台,导致品牌商无法为黑色星期五和 Cyber Monday 投放关键广告。

作者: 张婵

2018 年 11 月 21 日
微服务架构下的监控需要注意哪些方面?

微服务架构在带来灵活性、扩展性、伸缩性以及高可用性等优点的同时,其复杂性也给运维工作中最重要的监控环节带来了很大的挑战,从用户的角度看,微服务架构下的监控应该注意哪些方面?

作者: 张婵

2018 年 11 月 21 日
数据库如何确保其操作被 100% 正确执行?

在运用数据库的时候,我们不单单要知其然,还要知其所以然。

作者: 张帆

2018 年 11 月 20 日
谁需要采购自动化测试工具

这个看似寻常的问题,我在过去十五年中遇到太多次,以至于我已经很清楚,这个问题背后隐藏着一个怎样深不见底的坑。

作者: 熊节

2018 年 11 月 20 日
跨进程通信,到底用长连接还是短连接

一个完整的软件系统大多数情况下是由多个进程共同协作进行的,哪怕它们在同一台服务器上。所以,进程之间如何进行高效的通信至关重要。

作者: 张帆

2018 年 11 月 19 日
放弃 Python,Uber 用 Go 重写 Schemaless 数据库的分片层

2014 年,Uber 构建了可扩展的容错数据库 Schemaless,但随着业务的增长,原实现方式对资源消耗更多,同时请求延迟也在增加,为了保持 Schemaless 的性能,Uber 在不影响生产服务的情况下用 Go 重写了 Schemaless 数据库的分片层,完成了将产品系统从旧实现迁移到新实现的 Frontless 项目。

Anders Johnsen 译者: 小大非

2018 年 11 月 19 日
开源的监控技术栈除了 ELK,还有 InfluxData 的 TICK

开源的监控技术栈除了 ELK,还有 InfluxData 的 TICK

作者: Influxdata 译者: Key先森

2018 年 11 月 17 日
小米开源监控 Open-Falcon 收录汽车之家贡献的 Win 版 Agent

小米 Open-Falcon 监控系统自 2015 年开源以来,以其丰富的插件,灵活的架构,良好的性能表现,高效的告警策略等特性,赢得的众多互联网公司的青睐。汽车之家也一直关注着 Open-Falcon 的发展,系统平台团队通过对 Open-Falcon 的二次开发,打造了汽车之家的监控系统。

本文转载自小米运维

2018 年 11 月 16 日
从进程说起:容器到底是怎么一回事儿?

在极客时间的「深入剖析 Kubernetes」专栏里,详细介绍了容器技术圈在过去五年里的“风云变幻”,这篇文章也出自于这个专栏。

作者: 张磊

2018 年 11 月 16 日
分布式存储系统 Ceph 之 PG 状态详解

这表示所有的 PG 是可访问的,所有副本都对全部 PG 都可用。如果 Ceph 也报告 PG 的其他的警告或者错误状态。

作者: 李航

2018 年 11 月 15 日