运维圈必读的 10 个精选案例

  • 郭蕾

2015 年 11 月 19 日

话题:云计算语言 & 开发架构文化 & 方法

运维领域经过十多年的发展,随着服务器和流量规模的快速攀升,在海量技术运营方面不断探索和突破,形成了很多可供参考的成熟海量运营案例和方法论。InfoQ 上有大量的关于运维方面的文章,现在向大家推荐 10 篇精选的优秀案例文章,这些文章来自微信公众号 InfoQ,如果您对各类技术感兴趣,推荐关注微信公众号:InfoQ。

1、腾讯游戏业务运维实践分享

运维们在游戏云平台上源源不断地将技术方案与产品运营相结合, 在标准化、自动化、服务化、产品化的运维理念影响下,通过蓝鲸平台将运维的服务能力持续覆盖腾讯游戏 300+ 业务。在实践过程中我们深深体会到,运维服务对于产品运营的重要性以及对于运维未来发展的关键性。此次论坛希望通过腾讯游戏运维服务能力实践分享,与大家一起探讨运维发展未来与运维标准建设。

扫描二维码关注公众号后,发送数字 101 即可阅读原文。

2、OPPO 服务化架构系统监控难题解决方案

众所周知,系统监控一直是拥有复杂 IT 架构的企业所面临的一个重要问题,而这也并不是每家企业都能够轻松解决的技术挑战。OPPO 后端系统规模近几年快速发展,系统重构以后采用了服务化的架构,各系统之间耦合降低,开发效率得到了很大的提升。然而在服务化带来了好处的同时,难于监控的问题也一并出现。

为了解决这些问题,OPPO 公司自行开发了一套监控系统,并结合第三方监控系统,形成了从 App 请求开始到后端处理过程的完整监控体系。OPPO 监控系统的简称为 OMP(OPPO Monitor Platform),历时半年开发,分为两期上线,现在已全面接入 OPPO 线上项目。

扫描二维码关注公众号后,发送数字 102 即可阅读原文。

3、运维的本质:可视化

没有比“可视化”更好的一个词能概括运维的本质,而“可视化”又应该分成两部分:可视化的服务交付和可视化的服务度量!

对于运维来说,提供一种高效、一致性、透明化、面向用户的服务是运维的价值所在,这样就要求运维屏蔽其提供的服务背后的所有实现细节。运维的自动化最终要实现可视化,复杂的运维工作流必须通过可视化来表达,可视化后的自动化才能让所有人理解一致、执行一致、结果一致。

“除了上帝,一切人都必须用数据说话”,这是运维人员必须恪守的信条。数据的可视化能力非常重要,需要在面向整体和面向某个业务流上都有实现。可视化的能力就代表了运维的能力,可视化的程度越高,运维的能力越高。那么你现在到底可视化了哪些运维服务,并能进行度量呢?

扫描二维码关注公众号后,发送数字 103 即可阅读原文。

4、运维 2.0,危机前的自我拯救

运维的今天,内忧外患。运维危机,已非盛世危言、或哗众取宠。

怎么办?暴风雨和奇点同时逼近,而运维的分化,或许只是时间的问题。

为此,我提出新观点:运维 2.0——这也是运维最后的机会。

运维好比是池塘里的鱼,不管水域大小,都有一块自留地。但某天,突然来了一头鲸鱼,目标不是鱼而是水…… 所以运维的任务需随之而变——在水被吸干之前,提前上岸。

运维 2.0,就是那个带我们跳出池塘投身大湖的武器。

扫描二维码关注公众号后,发送数字 104 即可阅读原文。

5、云计算时代的数据库运维体系

通过对比企业数据库运维模式和云数据库(以下简称 RDS)的运维区别,说明在云计算时代,运维变成了一种服务,作为公共计算服务的一部分服务于广大企业。这时候云数据库运维面临的机会和挑战。

陈长城, 阿里技术保障 数据库高级专家, 2008 年慕名加入淘宝 DBA 团队,成为一名专职 Oracle DBA,两年后作为淘宝去 IOE 的主要实施人,对淘宝核心系统的数据库架构进行改造,经过 3 年架构演变,完成去 IOE。之后着手建设统一的数据库自动运维平台 DBFree,不断迭代至今。支撑了历年的双 11 大促,和去年的异地多活架构,满足异地多 IDC 同时进行交易。 一直负责阿里集团数据库基础技术,2014 年同时负责阿里云数据库的基础运维,喜欢在工作中探索新的模式,通过运维系统和生产系统的有机结合,让运维工作智能化,DBA 经验服务化。

扫描二维码关注公众号后,发送数字 105 即可阅读原文。

6、1 号店自动化运维构建

运维自动化是目前热门的研究领域,我们以 1 号店的运维实践作为依据,首先介绍 1 号店运维自动化的基础平台 CMDB 的架构和应用,然后在此基础上介绍运维自动化核心子系统构的构建及系统间的整合,突出讲解一下目前流行的 puppet 的特点以及整合。

希望我们通过以下的内容分享,帮助大家少走弯路: 运维自动化的规划和架构。 1 号店运维大闭环及 3 大核心闭环。 服务器下层闭环。(购买到进资源池前) 服务器上层闭环。(上架到回收) 业务闭环。(业务变更) CMDB 的构建及心得。 运维自动化产品 puppet 的选型及和 CMDB 的整合与应用。

扫描二维码关注公众号后,发送数字 106 即可阅读原文。

7、左耳朵耗子谈云计算:拼的就是运维

本文根据 InfoQ 中文站跟陈皓(@左耳朵耗子)的一次聊天内容整理而成。在沟通中,陈皓分享了自己对云计算的理解,包括云计算为什么会分三层,实现一个云平台的难点在什么地方,运维之于云计算的重要性,电商云为什么有价值等。

陈皓(@左耳朵耗子),CoolShell.cn 博主。15 年软件开发相关工作经验,8 年以上项目和团队管理经验。擅长底层技术架构,团队建设,软件工程,软件研发咨询,以及全球软件团队协作管理。

扫描二维码关注公众号后,发送数字 107 即可阅读原文。

8、赶集运维之九天探月

面对乱象丛生的开发模式,面对复杂多变的业务场景,面对众 多纷杂的系统平台,赶集运维挑战重重; 从无到有,从小到大,由分散到整合,由无序到流程。。。还有我们正在由工具走向平台化的今天; 我们经历了重构甚至推翻重搞,经历了数不清的从黎明到黑暗, 又从黑暗到黎明, 经历了用户的无数吐槽与点赞,经历了太多太多。 如何目睹起飞的过程? 如何清晰地看到那一轮明月? 希望能够通过这些“经历”来和大家一起分享“赶集阿波罗平台”的前身今世,以及我们规划建造这个“飞船”时 遇到的坑和得到的赞。

扫描二维码关注公众号后,发送数字 108 即可阅读原文。

9、招商银行故障处理实践——应急标准化方法论

对于大型商业银行而言,由于业务对信息系统的依赖,信息系统的可用性成为关系到财务收益和声誉风险的重要因子,而应急处置效率又是影响可用性的关键因素之一。如何快速有效地处置突发事件,既是商业银行的内在管理需要,也是外部监管要求。本文通过定性和定量结合的方式,全面分析可能影响应急处置效率的各个环节和要素,提出了提升应急处置效率的方法,并基于分析结果和笔者实践,总结了一套应急标准化方法论,可为听众起到抛砖引玉、开拓思路的作用。

扫描二维码关注公众号后,发送数字 109 即可阅读原文。

10、小米运维架构师谈运维自动化实践之路

这里的自动化主指自动化部署,它涵盖的范围很广泛,包括搭环境、修改配置、线上升级、扩容、迁移,以及带来的所有关联变更等等。 部署系统一直作为运维基础设施的核心组件,紧密的将监控、名字服务、配置管理等关联起来。 对于持续集成,配合 hudson 和本地部署工具,可以串联整个软件生命周期的自动化;对于服务稳定性来说,可以通过资源隔离及增加调度来自动运维服务,提高服务可用性。

扫描二维码关注公众号后,发送数字 110 即可阅读原文。

云计算语言 & 开发架构文化 & 方法