2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

云原生生态周报 Vol. 9:K8s 1.15 后的性能提升

  • 2019-07-15
  • 本文字数:2291 字

    阅读完需:约 8 分钟

云原生生态周报 Vol. 9:K8s 1.15 后的性能提升

前言

《云原生生态周报》由阿里云容器平台联合蚂蚁金服共同发布,每周一期。众多一线社区专家与您一起“跟踪动态,读懂社区”,分享云原生社区项目进展、活动发布、精选博客等信息。以下是第九期云原生生态周报的内容。

业界要闻

  1. Helm 这款包管理工具,作为业界 Kubernetes 上应用分发的事实标准,其 v3.0.0-alpha.1 正式发布,这是 Helm 3 的第一个Alpha版本,标志着 Tiller 这个 Server 端组件正式从 Helm 体系中谢幕。

  2. Talos发布。Talos 是一款专门用于部署 Kubernetes 的操作系统。相对于 CoreOS,RancherOS 或者 LinuxKit 这些容器操作系统,Talos 更为精简。但是由于去除了 ssh 等基础工具,这对于 Ansible 等基于 ssh 的 Kubernetes 部署工具影响巨大。

  3. Google 推出深度学习容器,这是一种用于部署和测试利用机器学习应用与服务的优化环境。Beta 版本的深度学习容器可在云与本地工作,从而使得在本地或云中进行开发或原型设计成为可能。此外,该容器还能直接访问 CUDA、cuDNN、NCCL 工具,支持 PyTorch、TensorFlow 2.0 和 TensorFlow 1.13 框架。

上游重要进展

Kubernetes 项目性能提升

  1. 大规模场景下一定要 Cherry Pick 的几个特性:



  1. client-go 会把 List/Watch 超时设置为 [5min, 10min),即在超时时间后会重新发起 List/Watch,建议 Daemenset 调整这个时间到几十分钟甚至数小时级别,不然 Apiserver 可能会因为大量访问崩溃。同时,也在考虑 kubelet 是否也要修改这个值,代码的注释里写着 5min 是为了平衡负载均衡以及解除负载均衡设备 watch 的 hang 住 bug。

  2. client-go RateLimiter 加入 Wait 方法,避免在异步场景下使用 client-go 引起 goruntine 积压。

  3. Webhook 和 Adimission 支持 context-aware,在这个修复之前,Webhook 和 Admission 的性能也可能引起 Apiserver goruntine 积压从而影响 Apiserver 性能。

  4. Kube-Apiserver 到达 IO 瓶颈时,metric 错误的将 IO 瓶颈错误归类到 504。我们需要将逻辑处理超时和写 IO 超时分开。

Kubernetes 可靠性和稳定性

  1. 新引入 WatchBookmark 特性。该特性能大大提高 Kube-Apiserver 的 List/Watch 性能,大家都知道,大规模集群下各个组件的 List/Watch 会消耗 Kube-Apiserver 巨大的性能开销,有了该特性,我们可以展望未来的集群规模又可以上升一个台阶。 (#74074, @wojtek-t)

  2. Admission 默认开启 StorageObjectInUseProtection。StorageObjectInUseProtection 能保护正在使用的 PV/PVC 被误删除。这对手速太快的开发和 SRE 同学是一个很大的福音。(#74610, @oomichi)

  3. 蚂蚁金服在大规模实践中,发现 Daemonset 有各种发布和部署 Pod 被卡住的问题,蚂蚁同学对 Daemonset Controller 可能发生的一系列死锁问题做了修复。


参考链接:


https://github.com/kubernetes/kubernetes/pull/78974


https://github.com/kubernetes/kubernetes/pull/77773


https://github.com/kubernetes/kubernetes/pull/77208


https://github.com/kubernetes/kubernetes/pull/78170

Knative 项目

  1. knative-eventing 0.7.0 发布,主要特性是:重构 channel,为每个 Channel 单独创建了 CRD 资源;支持事件顺序处理(Sequence);在 Channel, Subscription, Broker, 以及 Trigger 中增强注释信息;事件追踪支持;事件源增强。详细说明请见 knative-eventing 0.7.0解读文章

  2. knative-serving 0.7.0 发布,主要特性是:发布 serving.knative.dev/v1beta1 api ;HPA 支持根据并发请求指标扩缩容;切换到非 root 用户容器;详细说明请见 knative serving 0.7.0 版本变更。

  3. 讨论serving是否支持异步请求:要求请求后马上返回,另外可以根据 id 查询状态,当前还没有结论。从这个需求讨论可以看出 serving 在扩大自己的场景,不满足只做 ping-pong 式的处理。支持异步请求可以用在以下的场景


  • Long-running jobs


Notifications (e.g. mobile push notification, SMS notification, mass emails, etc)


Database migrations


  • Batch processing (e.g. data transformation)

  • Stream processing

  • Highly parallel jobs (document, image, … processing)

  • Fan-out workloads

  • -Serveless Operator


  1. 期望在缩容的时候,由autoscaler来决定删除哪些pod。例如在 scale-down 时,各个 pod 的负载不平衡,这个时候希望能挑选 sale-down 代价最小的 pod。serving-revision 使用 K8-deployment,如果不更换实现方式,需要 k8 底层支持,k8也有相关的讨论

本周阅读推荐

  1. Cloud 2.0:代码不再为王,Serverless 当道!》 这一篇不错的“务虚”文档,可以从技术演进的视角去思考云时代的技术演进。

  2. 《微服务架构之「 监控系统 」》 ,这篇文档详细且完整的描述了微服务架构下的监控系统。用户可以根据此文档对微服务的解决方案进行入门级的了解。

  3. 《Knative 核心概念介绍:Build、Serving和Eventing 三大核心组件》,面对火热的 Serverless 项目 Knative,这篇文章对 Knative 的基础概念进行了精确的概括总结。


本周报由阿里巴巴容器平台联合蚂蚁金服共同发布


本周作者:心贵、莫源、元毅、衷源、张磊


责任编辑:涂南、木环


前期周报回顾


云原生生态周报 Vol. 8 | Gartner 发布云原生趋势


云原生生态周报 Vol. 7 | Docker 再爆 CVE


云原生生态周报 Vol. 6:KubeCon EU 亮点汇总


云原生生态周报 Vol. 5: etcd 性能知多少


云原生生态周报 Vol.4:Twitter 从 Mesos 全面转向 Kubernetes


云原生生态周报 Vol. 3:Docker Hub 遭入侵,Java 8 开始提供良好的容器支持


云原生生态周报 Vol. 2:Godaddy 开源 KES、CNCF 提供免费云原生课程


云原生生态周报 Vol. 1:Google 发布 Cloud Run,开源项目 Kubecost 让 K8s 花费一目了然


2019-07-15 16:453399

评论

发布
暂无评论
发现更多内容

python scrapy 管道学习,并拿在行练手爬虫项目

梦想橡皮擦

12月日更

关于库存扣减方案的思考总结

得物技术

后端 电商 库存 电商大促

react源码解析20.总结&第一章的面试题解答

buchila11

React react源码

实用机器学习笔记七:数据变换

打工人!

机器学习 算法 学习笔记 12月日更

TCP的慢启动、拥塞避免、重传、快恢复乱七八糟总是记不清?11个连环问让你一次性打通任督二脉

华为云开发者联盟

TCP 报文 TCP协议 ACK RTT

iTerm通过SSH配置登录服务器

eva

Mac iTerm 服务器

云原生时代,企业如何智能管理数据?

Kyligence

终于购买了自己的第一个硬件钱包Ledger Nano(8/28)

赵新龙

28天写作

计划会议想开好,这两件事必须清楚

华为云开发者联盟

计划 敏捷 团队 计划会议 故事分解

低代码是如何帮助500强企业解决数字化转型“边角料”问题的?

优秀

低代码 数字化转型

react源码解析19.手写迷你版react

buchila11

React React Hooks

华为云首席架构师顾炯炯:敢为人先,探索架构创新之路如何走

华为云开发者联盟

架构 架构师 公有云 华为云 云服务API

Flutter 详解 Timer & ACETimerButton 自定义计时器按钮

阿策小和尚

28天写作 0 基础学习 Flutter 内容合集 签约计划第二季 12月日更

使用 HTML、CSS、JS 和 API 制作一个很棒的天气 Web 应用程序

海拥(haiyong.site)

JavaScript API 28天写作 签约计划第二季 12月日更

支撑1300+矿井监控,华为云数据库助力打造智能矿山

华为云开发者联盟

数据库 监控 华为云 数据复制服务 煤矿

MongoDB技术实践与应用案例征集中

MongoDB中文社区

mongodb

Hybris Storefront里产品图片显示不出来的分析方法

汪子熙

28天写作 SAP Hybris 12月日更 Backoffice

低代码实现探索(六)复杂业务的去处事件码

零道云-混合式低代码平台

预计算 or 数据虚拟化,你 pick 谁?

Kyligence

【LeetCode】电话号码的字母组合Java题解

Albert

算法 LeetCode 12月日更

入驻快讯|欢迎 OpenI 启智社区正式入驻 InfoQ 写作平台!

InfoQ写作社区官方

入驻快讯

硬核榜单 | 拍乐云荣登福布斯中国「企业科技50强」

拍乐云Pano

音视频 拍乐云 福布斯 科技企业

通过 nginx 日志做监控

Arch

不用 Python/R ,只会 SQL 就可以做机器学习?

Kyligence

Linux系统学习《Linux一学就会》:LVM管理和ssm存储管理器使用

侠盗安全

Linux linux运维 运维工程师 云计算架构师

好好学react源码然后惊艳所有人

全栈潇晨

React react源码

Java开发中 API接口不用写 Controller也可以

@零度

Java API Controller

云脑启智 院士压轴 | 2021新一代人工智能院士高峰论坛暨OpenI/O启智开发者大会即将开幕

OpenI启智社区

人工智能 开源社区 院士峰会 启智开发者大会 鹏城云脑

说了半天跨平台,今儿咱就来跨跨!(中)

为自己带盐

Docker jenkins 28天写作 签约计划第二季 12月日更

一款好用的Maven插件 - Maven Helper

恒生LIGHT云社区

Java maven

列存数据库,不只是列式存储

Kyligence

云原生生态周报 Vol. 9:K8s 1.15 后的性能提升_云原生_心贵_InfoQ精选文章