看字节跳动容器化场景下,如何实现性能优化?

2019 年 8 月 12 日

看字节跳动容器化场景下,如何实现性能优化?

本文整理自 2019 年 ArchSummit 全球架构师峰会深圳站字节跳动头条研发软件工程师江帆演讲话题《字节跳动容器化场景下的性能优化实践》。

如今在字节跳动的容器私有平台上,托管了抖音、今日头条等大量在线用户的容器。随着这些业务的快速发展,字节跳动的 Kubernetes 集群数量和规模也会越来越大,与此同时,机器的负载也会越来越高,给日常的运维工作带来了巨大的挑战。

尤其是性能问题,在系统问题排查后发现,归根结底在于内核本身的 Cgroups 隔离性和可观测性不足,不能提供所需的数据,这就给线上运维工作带来了困难,进而也阻碍了真正提升资源利用率的进程。那么在字节跳动大规模的容器化场景下,如何实现既提高机器的利用率又能兼顾成本问题呢?

传统的系统监控,治标不治本

很多人第一时间想到利用传统的系统监控去处理,但是并不能。一个很重要的原因,我们常用到的系统监控,包括像 cAdvisor,Atop 等等,这些系统监控的一个弊端是,只能看到内核暴露出来的数据,也就是说,如果内核没有提供这块数据,我们就没有办法看到。如果我们希望通过修改内核,去支持一些问题的排查和新的特性,但内核的上线过程,又是一个非常痛苦和非常长期的一个过程。

原文链接:【 https://www.infoq.cn/article/2Hxfu3praGYewq6_FcdK 】。未经作者许可,禁止转载。

登录后可解锁全站优质内容

免费畅享技术公开课、顶尖技术团队访谈、一线互联网大厂技术实践

文章
视频
电子书
研究报告
立即登录
2019 年 8 月 12 日 15:58 7410

评论 1 条评论

发布
用户头像
"从而通过 GIT 实时的转化成 Native 的 X86 的指令。" -- 这里的GIT应该是JIT吧?
2019 年 08 月 16 日 14:16
回复
没有更多评论了
发现更多内容

众安黑客马拉松大赛总决赛-InfoQ小编探班

众安黑客马拉松大赛总决赛-InfoQ小编探班

看字节跳动容器化场景下,如何实现性能优化?-InfoQ