七牛存储运维实践

阅读数:60 2019 年 9 月 24 日 15:08

七牛存储运维实践

CNUTCon 上海 2018 大会上,林天智讲师做了《七牛存储运维实践》主题演讲,主要内容如下。

演讲简介

  1. 七牛原本的告警系统是通过 zabbix 来触发,然后有一个人工告警通知的团队来通知各个业务线告警,再由各自的运维团队处理告警。这个在规模小的时候没有问题,但是在机器规模变大的时候会遇到很多问题,告警数量爆增,信息流单项无法确认,缺乏历史记录等。需要针对这个来做改造,但是过程中会遇到大量告警如何迁移,如何保证不影响当前的正常工作等,中间运用到一些开源服务比如 prometheus,pushgateway,node_exporter 等,以及一些自己开发的系统。最终存储运维相关的故障减少 80% 以上,以及不需要人工告警团队再继续通知。
  2. 资源利用以及集群复制。当前存储的部署是基于物理机部署,对于资源利用很不充分,也不利于集群的复制(私有云),会从这些角度讲如何从物理集群迁移到容器集群。

主要内容:

  1. 监控数据搜集;
  2. 告警收敛;
  3. 告警后续处理;
  4. 容器化方案。

听众受益:

  1. 灵活运用开源组件 ;
  2. 如何自动化的思路,避免无意义的工作;
  3. 容器化的思路。

讲师介绍

林天智

七牛存储 & 直播运维 负责人

在七牛曾经做过存储研发,转到数据处理,后面参与到直播调度相关的设计以及研发,再后来转到技术保障部作为存储 & 直播运维的负责人,有 5 年的 golang 编程经验,对分布式有一定经验,对 k8s 有一定了解,运维方面有大规模运维改造的实践经验。

七牛存储运维实践

七牛存储运维实践

七牛存储运维实践

七牛存储运维实践

七牛存储运维实践

七牛存储运维实践

七牛存储运维实践

七牛存储运维实践

七牛存储运维实践

七牛存储运维实践

完整演讲 PPT 下载链接

https://cnutcon.infoq.cn/2018/shanghai/#schedule

评论

发布