Kubernetes 运行大数据工作负载的探索和实践

阅读数:1 2020 年 2 月 5 日 19:55

Kubernetes 运行大数据工作负载的探索和实践

ArchSummit 北京 2019 大会上,王雷博讲师做了《Kubernetes 运行大数据工作负载的探索和实践》主题演讲,主要内容如下。

演讲简介

随着 Kubernetes 的成熟,越来越多的大数据用户希望将 Spark 作业运行在 Kubernetes 之上。Spark 从 2.3 版本开始已经可以运行在 Kubernetes 之上,然而目前 Kubernetes 默认调度器对于大数据场景的支持还有很多不足,例如高并发场景,动态集群资源共享场景,亲和调度场景等。Volcano 针对于这些大数据特有场景进行了定制化开发。提供了 Pod delay creation,Queue,Zone aware scheduling 等,获得了很好的功能体验和性能提升。

在本次演讲中将介绍 Kubernetes 运行大数据工作负载的探索和实践,以及 Volcano 针对大数据工作负载的优化,并演示相应的功能和性能提升等。

内容大纲

  1. Kubernetes 运行大数据作业的现状
  2. Kubernetes 运行大数据的痛点
  3. Volcano 针对大数据的方案设计
  4. 性能方面的提升
  5. 后续的改进计划

听众受益点

  1. 如何在社区中运营一个开源项目
  2. 如何使用 Kubernetes 来运行大数据
  3. 如何优化 Kuberentes 来支持 计算类任务

讲师介绍

王雷博

华为 基础服务产品部 / 主任工程师

华为云基础服务产品部主任工程师,曾就职于 NEC,Platform computing,IBM,Oracle 等公司。拥有 10 年以上大规模分布式计算、高性能计算领域的从业经验。熟悉云原生和大数据领域的开源生态系统。专注于大规模集群资源管理,资源调度,作业调度引擎的开发。

目前主要负责 Volcano 云原生批量计算平台的研发工作。Volcano 社区致力于在 Kubernetes 上构建一个批处理调度系统,提供高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力。Volcano 目前已广泛应用在大数据,AI,基因容器等服务领域。

Kubernetes 运行大数据工作负载的探索和实践

Kubernetes 运行大数据工作负载的探索和实践

Kubernetes 运行大数据工作负载的探索和实践

Kubernetes 运行大数据工作负载的探索和实践

Kubernetes 运行大数据工作负载的探索和实践

Kubernetes 运行大数据工作负载的探索和实践

Kubernetes 运行大数据工作负载的探索和实践

Kubernetes 运行大数据工作负载的探索和实践

Kubernetes 运行大数据工作负载的探索和实践

Kubernetes 运行大数据工作负载的探索和实践

完整演讲 PPT 下载链接

https://archsummit.infoq.cn/2019/beijing/schedule

评论

发布