基于 K8s 原生扩展的机器学习平台引擎 ML Engine

阅读数:1 2020 年 2 月 8 日 18:41

基于 K8s 原生扩展的机器学习平台引擎ML Engine

ArchSummit 北京 2019 大会上,褚向阳讲师做了《基于 K8s 原生扩展的机器学习平台引擎 ML Engine》主题演讲,主要内容如下。

演讲简介

CloudML 是小米人工智能部的机器学习平台,随着业务的发展和用户的增多,结合 K8s/Kubeflow 社区对于原生扩展及 ML/DL 平台发展方向,我们提出了基于 K8s 原生扩展的新一代机器学习平台引擎 ML Engine,主要思路是充分利用 K8s 原生的扩展机制,包括 CRD / Webhook / Scheduling Framework 等,将机器学习平台相关的业务模型、控制逻辑和调度策略融入到 K8s 集群中,提供更好的生命周期管理,同时满足高可用、稳定性和易维护性的云原生特性。

内容大纲

  1. 小米 CloudML 平台简介
  2. ML Engine 架构设计演进
  3. ML Engine 对多框架的分布式训练支持详解
  4. 未来发展方向和具体工作

听众受益点

  1. 了解目前机器学习平台所需要解决的问题
  2. 理解使用 K8s 的扩展功能来实现定制需求的方法和优势
  3. 重新思考云原生的机器学习平台架构

讲师介绍

褚向阳,小米人工智能部 / 高级软件工程师。

2013 年毕业后加入红帽软件,吸收开源文化,接触 OpenStack 和 IaaS 平台相关技术。2015 年底开始加入容器云创业公司,参与打造容器化的 PaaS 平台,2018 年加入小米人工智能部,负责小米机器学习平台的建设,重点支持各个框架的分布式训练,订制优化 K8s 调度,努力提高平台用户体验的同时保证集群利用率。持续关注 Kubeflow 社区及性能优化相关开源项目发展。

基于 K8s 原生扩展的机器学习平台引擎ML Engine

基于 K8s 原生扩展的机器学习平台引擎ML Engine

基于 K8s 原生扩展的机器学习平台引擎ML Engine

基于 K8s 原生扩展的机器学习平台引擎ML Engine

基于 K8s 原生扩展的机器学习平台引擎ML Engine

基于 K8s 原生扩展的机器学习平台引擎ML Engine

基于 K8s 原生扩展的机器学习平台引擎ML Engine

基于 K8s 原生扩展的机器学习平台引擎ML Engine

基于 K8s 原生扩展的机器学习平台引擎ML Engine

基于 K8s 原生扩展的机器学习平台引擎ML Engine

完整演讲 PPT 下载链接

https://archsummit.infoq.cn/2019/beijing/schedule

评论

发布