写点什么

QCon 北京 2015:自动化运维专题前瞻

  • 2015-03-04
  • 本文字数:3509 字

    阅读完需:约 12 分钟

中国互联网行业经过十多年的蓬勃发展,到今天形成了从巨头到中小企业近百家上市公司,还有大量创业公司并存的繁荣景象,而运维领域经过十多年的发展,随着服务器和流量规模的快速攀升,在海量技术运营方面不断探索和突破,形成了很多可供参考的成熟海量运营案例和方法论;开源软件领域也从之前的偏重生产系统的软件如 MySQL、Apache 等发展到越来越偏重综合运维管理的解 决方案,如 Docker 甚至开源云平台等。

即将于 4 月 23 日~25 日在北京国际会议中心举行的 QCon 北京 2015 大会,相应设置了“自动化运维”专题。本专题试图在前面介绍的这几个方面,为大家找一些业内成熟案例和探索,供大家学习和参考。

我们邀请了腾讯社交网络运营部助理总经理赵建春担任本专题的出品人。赵建春,腾讯 T4 专家工程师,技术运营通道顾问。04 年大学毕业后加入腾讯,先后参与过交友、音乐、贺卡、QQ 空间等业务的开发。06 年后和团队一起专注于技术运维,负责腾讯社交网络事业群社区类 Web 业务的运维和建设工作至今。经历了业务规模从数十台设备到数万台设备的快速发展历程。在此过程中,他在运维环境标准化、业务 Set 化、运维自动化及多地分布式部署、内部云建设等方面积累了丰富的实战经验。

目前本专题的讲师已经全部确定,我们邀请了来自业界领先的互联网公司的 7 位运维专家,为大家分享他们的宝贵经验。到底有哪些专家,他们会分享什么样的话题呢,我们先睹为快。

“高效运维最佳实践”是 InfoQ 在 2015 年推出的精品专栏,由触控科技运维总监萧田国撰写,InfoQ 总编辑崔康策划。目前已经发布两篇文章:高效运维最佳实践(01):七字诀,不再憋屈的运维高效运维最佳实践(02):员工的四大误区及解决之道。在 QCon 上,萧田国将来现场分享《专业运维的最佳实践探索》:

我们那么的努力,为什么业务部门对运维的评价往往没预期的好?运维人员应该怎么做,才能获得更多认可?运维人员更愿意关注个人技术能力的提升,及认为给公司带来了多大的价值,往往忽略了怎样更专业的做事情,以达到甚至超越公司和业务部门的期望,摘取个人和团队的”组织成果“。

本主题试图从业务部门的角度观察和审视运维,基于演讲嘉宾多年一线运维经验及管理学方法,侧重解决三个问题:即什么是专业运维(公司需要怎样的运维),为什么难以做到,及怎样专业化运维。希望引发大家思考,并有所裨益。

Docker 问世两年左右,就引爆了社区,InfoQ 也相应设置了 Docker 专栏,为 Docker 的学习和推广共享着自己的力量。Docker 在企业界的应用状况、部署规模到底如何呢?我们邀请了腾讯数据平台部高级工程师罗韩梅,她将分享 Docker 在腾讯的应用状况。她的演讲是《Gaia——万台规模的 Docker 应用实战》:

作为底层的资源调度平台,Gaia(盖娅)能够让应用开发者像使用一台超级计算机一样使用整个集群,极大地简化了资源管理逻辑。Gaia 提供高并发任务调度和资源管理,实现集群共享,具有高度可伸缩性和可靠性,能够支持 MR 等离线业务,甚至是实时计算、在线 service 业务。通过一系列的优化,Gaia 可以支持到单 cluster 万台规模,毫秒级的作业下发效率以及更加完善的资源管理,同时,我们引入了弹性内存管理,增加了网络和磁盘带宽管理。

Docker 轻量、可移植、跨平台的特性将彻底改变程序的交付方式,并充分释放了虚拟化的威力,大有掀起一场容器革命之势。云计算、大数据经常意味着需要调动数据中心大量的资源,如何能够快速的匹配合适资源,需要一个聪明的“大脑”——Gaia。通过 Docker on Gaia 实现的 Docker 云,将会让 Docker 的能量发挥到极致。

面对线上故障,我们是疲于救火,还是尽量防患未然,曲突徙薪?搜狗高级经理房秀丽将分享《从“救火”走向“防火”》:

是否在线上发生故障时,开发和运维人员忙成一团?是否觉得已经对线上故障很重视了,但是线上故障依然屡次发生?是否每天不是在“救火”就是在“救火”路上?是否团队的成就感已被逐渐的抹杀?实践证明,如果仅仅是遇到故障才去解决的“亡羊补牢”式的工作方式,就会使“救火”成为常态。因此,我们需要思考应该如何使运维的状态从“救火”变成“防火”,做到防患于未然。

本次主题分享的是针对搜狗商业平台产品迭代速度不断加快、机群规模持续扩大、应用架构日趋复杂的演变过程中出现的各种运维问题,介绍我们在发布管理、监控管理、故障管理等方面进行的探索,以及如何通过搜狗商业自动化平台和运维体系实现从“救火”逐渐到“防火”的转变。希望能对大家有启发或借鉴作用。

业务场景复杂多变,系统平台纷繁复杂,运维团队应该如何应对?我们邀请了赶集网运维平台负责人、自动化运维专家崔华,分享《赶集运维之九天探月》:

面对乱象丛生的开发模式,面对复杂多变的业务场景,面对众 多纷杂的系统平台,赶集运维挑战重重;从无到有,从小到大,由分散到整合,由无序到流程。。。还有我们正在由工具走向平台化的今天;我们经历了重构甚至推翻重搞,经历了数不清的从黎明到黑暗, 又从黑暗到黎明, 经历了用户的无数吐槽与点赞,经历了太多太多。如何目睹起飞的过程? 如何清晰地看到那一轮明月?希望能够通过这些“经历”来和大家一起分享“赶集阿波罗平台”的前身今世,以及我们规划建造这个“飞船”时 遇到的坑和得到的赞。

在云计算时代,数据库的运维有何挑战呢?我们听听阿里巴巴高级数据库专家陈长城(花名天羽)的分享——《云计算时代的数据库运维体系》:

通过对比企业数据库运维模式和云数据库(以下简称 RDS)的运维区别,说明在云计算时代,运维变成了一种服务,作为公共计算服务的一部分服务于广大企业。这时候云数据库运维面临的机会和挑战。

1、所有企业和个人,对云数据库的 SLA 要求都是一样高的。在以前我们负责大规模产品线时,宕一台只影响 1/16 或更小,但在云数据库,对一个用户来讲就宕机 1 台就是 100% 不可用。

2、当运维变成一种服务,用户会担心数据是否安全,云平台的运维模式是否可信。

3、用户对 RDS 平时不希望参与维护,但出问题他会找你,这就要求我们比用户更早发现问题,甚至能提前预判和规避问题。

针对这些痛点,我会介绍 RDS 产品和运维平台杜康在阿里云计算运维实践中的解决方案,产品在用户和运维界面上的设计,杜康在全链路监控、可信运维模式、智能运维和服务化的进展。

运维体系建设首先是为了稳定性,最终追求的是用户体验。为了提高用户使用 RDS 的体验,我们开发了一些独有的功能,我将重点介绍 CloudDBA 的设计和实践,CloudDBA 的想法源于我们一直希望把 DBA 的经验产品化,今天阿里集团有一大批经验丰富的 DBA,但在云计算的用户是没有的,我们希望将阿里 DBA 丰富的线上经验输出给广大的 RDS 用户。CloudDBA 是阿里基于多年数据库运维经验开发的自动化工具,把 DBA 工程师的一些基础工作如 SQL 优化、表结构优化、空间使用优化等通过系统给用户专业的建议,由用户决策并一键执行,将为阿里云数据库服务(RDS)的用户带来全新的便利体验。其中 CloudDBA 诊断引擎项目,专业 DBA 自动 SQL 优化服务已经通过云数据库管家在 RDS 控制台推出,我也将分享产品设计和推出过程的一些感想。

最后简单介绍下 RDS 对外开放的 API,运维服务是可以由第 3 方提供的,行业云用户需要更多深入定制的运维服务。

刚刚过去的除夕之夜,对微博平台也是一次大考。我们邀请到了新浪微博平台运维架构师王关胜,他将分享《新浪微博平台运维自动化之路》:

11 年初,新浪微博进入快速发展期,同时也开启平台化的进程,服务器设备,及人力成本大量增加。业务的发展,让我们意识到运维自动化的必要。于是开启探索之路,本次主题就其中关键部分进行分享。

除了线上系统的自动化运维,底层的数据中心如何通过自动化运维实现支撑,也是一个有意义的话题。我们邀请了百度系统部高级项目经理陆川,他将分享《百度数据中心自动化平台演进过程》:

一、主题摘要:

1. 背景(数据中心自动化的定义(机器运维、网络运维,不包含业务运维,如 apache、mysql),百度数据中心规模发展(几千台——数十万台))

2. 百度数据中心自动化运营平台发展历程(流程系统 -> 半自动 -> 全自动)

3. 百度数据中心自动化运营平台架构设计(资源管理平台、自动化平台、配置管理数据、监控平台、数据统计分析平台)

4. 百度数据中心自动化运营平台未来发展(简化、开放、大数据分析)

二、听众受益:

1. 了解超大型互联网公司数据中心自动化运营平台的发展历程,有助于中大型互联网公司平台研发团队开拓思路,少走弯路;

2. 了解大规模数据中心自动化运营平台、存在的问题和解决方案;

3. 了解数据中心自动化运营平台如何为公司、业务创造价值;

4. 了解数据中心自动化运营平台未来发展的趋势。

更多精彩,尽在现场。现在报名,可享 9 折优惠。

2015-03-04 20:292997
用户头像
臧秀涛 略懂技术的运营同学。

发布了 300 篇内容, 共 128.0 次阅读, 收获喜欢 33 次。

关注

评论

发布
暂无评论
发现更多内容

生活意义的缺失是当代都市人的必然窘境

mtfelix

28天写作 生活的意义

一个简单的socket小工具

为自己带盐

socket dotnet 28天写作 12月日更

父母的陪伴对孩子长大非常重要

Tiger

28天写作

第二周作业

lv

面向WEB开发人员的Docker(八):将 Docker 镜像推送到仓库

devpoint

Docker 12月日更

五分钟就能学会,一辈子难以精通(18/28)

赵新龙

28天写作

云原生应用的建设之路

巨子嘉

云原生

架构训练营模块二作业

沈益飞

架构师训练营 4 期

模块三作业

Geek_e6f7f6

架构实战营

【LeetCode】被围绕的区域Java题解

Albert

算法 LeetCode 12月日更

用明道云,一小时复刻两个月自研的账款系统

明道云

HTML制作3D樱花漫天飞舞及浪漫信封

海拥(haiyong.site)

大前端 代码中的浪漫 28天写作 12月日更

来也科技UiBot 6.0社区版全线免费,RPA距离人人可用还有多远?

王吉伟频道

RPA 机器人流程自动化 来也科技 社区版

Go语言原理分析-数组

王博

给弟弟的信第16封|人为什么会抑郁

大菠萝

28天写作

公理设计:由奇怪海战引发的软件设计思考

程序员历小冰

设计模式 28天写作 12月日更

如何在 Flutter 中使用MemoryImage【Flutter专题23】

坚果

flutter 28天写作 12月日更

Linux之touch命令

入门小站

Linux

无快不破,在本地 docker 运行 IDEA 里面的项目?

秦怀杂货店

Java 后端 springboot dcoker

化“整”为“零”,明道云为企业信息化提速(一)

明道云

实用机器学习笔记十七:模型评估

打工人!

机器学习 深度学习 算法 模型评估 12月日更

读《思辨与立场》-06思维的要素-01

wood

28天写作 批判性思维 思辨与立场

明道云APaaS实践将GTD方法落地

明道云

为什么要“除夕”,原来是内存爆了

悟空聊架构

JVM 内存 28天写作 悟空聊架构 12月日更

起、承、转、合全赋能:华为应用生态为开发者带来了什么?

脑极体

架构实战营模块二作业

曾竞超

架构实战营 「架构实战营」

dart系列之:你的地盘你做主,使用Extension对类进行扩展

程序那些事

flutter dart 程序那些事 扩展 12月日更

17《重学JAVA》--JAVA异常(一)

杨鹏Geek

Java 25 周年 28天写作 12月日更

[架构实战营] 模块二作业

Geek_0ed632

架构实战营

mitmproxy与安卓模拟器搭配,助力Python爬虫工程师,然后就可以爬CSDN粉丝数据了

梦想橡皮擦

12月日更

在线JSON转Rust工具

入门小站

工具

  • 扫码添加小助手
    领取最新资料包
QCon北京2015:自动化运维专题前瞻_数据库_臧秀涛_InfoQ精选文章