NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

基于 K8s 原生扩展的机器学习平台引擎 ML Engine

  • 2020-02-08
  • 本文字数:620 字

    阅读完需:约 2 分钟

基于 K8s 原生扩展的机器学习平台引擎ML Engine

ArchSummit 北京 2019 大会上,褚向阳讲师做了《基于 K8s 原生扩展的机器学习平台引擎 ML Engine》主题演讲,主要内容如下。


演讲简介


CloudML 是小米人工智能部的机器学习平台,随着业务的发展和用户的增多,结合 K8s/Kubeflow 社区对于原生扩展及 ML/DL 平台发展方向,我们提出了基于 K8s 原生扩展的新一代机器学习平台引擎 ML Engine,主要思路是充分利用 K8s 原生的扩展机制,包括 CRD / Webhook / Scheduling Framework 等,将机器学习平台相关的业务模型、控制逻辑和调度策略融入到 K8s 集群中,提供更好的生命周期管理,同时满足高可用、稳定性和易维护性的云原生特性。


内容大纲


  1. 小米 CloudML 平台简介

  2. ML Engine 架构设计演进

  3. ML Engine 对多框架的分布式训练支持详解

  4. 未来发展方向和具体工作


听众受益点


  1. 了解目前机器学习平台所需要解决的问题

  2. 理解使用 K8s 的扩展功能来实现定制需求的方法和优势

  3. 重新思考云原生的机器学习平台架构


讲师介绍


褚向阳,小米人工智能部/高级软件工程师。


2013 年毕业后加入红帽软件,吸收开源文化,接触 OpenStack 和 IaaS 平台相关技术。2015 年底开始加入容器云创业公司,参与打造容器化的 PaaS 平台,2018 年加入小米人工智能部,负责小米机器学习平台的建设,重点支持各个框架的分布式训练,订制优化 K8s 调度,努力提高平台用户体验的同时保证集群利用率。持续关注 Kubeflow 社区及性能优化相关开源项目发展。












完整演讲 PPT 下载链接


https://archsummit.infoq.cn/2019/beijing/schedule


2020-02-08 18:41765

评论

发布
暂无评论
发现更多内容

腾讯云5G边缘计算拿下Linux基金会奖项,降低40%云游戏网络时延

科技热闻

JavaScript 装饰器介绍

掘金安东尼

前端 9月月更

《MySQL自传》

MySQL 数据库 玖章算术 叶正盛 斗佛

从实例出发,算力网络到底是如何编排的?

鲸品堂

算力网络

共探人工智能新发展,AICON 2022 即将重磅开启

Geek_2d6073

经验分享|分享搭建在线帮助中心的方法

Baklib

Alibaba最新发布!耗时182天肝出来1028页分布式全栈手册太香了

了不起的程序猿

Java 阿里巴巴 分布式 java程序员

深度操作系统20.7正式发布!

深度操作系统

国产操作系统 deepin 深度操作系统 深度 deepin20.7

《数字经济全景白皮书》证券数字化篇 重磅发布!

易观分析

金融 证券

复享光学发布ZURO系列光谱仪 助力中国半导体产业国产化

硬科技星球

想了解Python中的super 函数么

华为云开发者联盟

Python 开发 企业号九月金秋榜

技术科普:如何应用视觉显著性模型优化远控编码算法?

贝锐

算法 编码器 视觉策略 远程控制 向日葵

如何梳理企业流程管理?

优秀

业务流程管理 主业务流程梳理

开源密码管理器更安全吗?(1)

神锁离线版

开源 数据安全 密码管理 开源安全 开源软件

企业知识管理平台在企业中扮演什么样的角色?

Baklib

知识管理

我们总结了 3 大使用建议,并首次公开 Nacos3.0 规划图 | Nacos 开源 4 周年

阿里巴巴中间件

阿里云 开源 微服务 云原生 nacos

13th 发布在即,一文带你回顾Intel 12th Core

鼎道智联

英特尔 13th处理器 酷睿处理器 12th处理器

如何用AscendCL的接口开发网络模型推理场景下应用?

华为云开发者联盟

人工智能 企业号九月金秋榜

首次全面解析云原生成熟度模型:解决企业「诊断难、规划难、选型难」问题

阿里巴巴中间件

阿里云 中间件 成熟度

wallys IPQ8072 4x4 2.4G & 5G /QCN9074 11ax 4x4 6G M.2

wallys-wifi6

QCN9074 IPQ8072

Redis 主从复制演进历程与百度智能云的实践

Baidu AICLOUD

数据库 redis 底层原理

十问 RocketMQ:十年再出发,到底有何不同?

阿里巴巴中间件

阿里云 RocketMQ 云原生 中间件

开发NFT数字藏品平台:定制搭建NFT系统

开源直播系统源码

NFT 数字藏品 数字藏品开发 数字藏品系统

个推TechDay直播回顾 | 分享基于Flink的实时数仓搭建秘诀

个推

别搞Java面试八股文背诵版了! 真卷不动了...

退休的汤姆

Java 程序员 面经 社招 秋招

如何守护数据安全? 这里有一份RDS灾备方案为你支招

京东科技开发者

数据库 安全 灾备 主机安全 RDS

助你成为专业终端人,阿里巴巴第三届终端练习生计划开启报名!

阿里技术

前端 移动开发

低代码开发平台的功能有哪些?低代码“功能清单”一览

优秀

低代码 企业级低代码平台

LeaRun低代码平台 助力中小企业快速开发MES系统

力软低代码开发平台

个推TechDay直播回顾 | 分享基于Flink的实时数仓搭建秘诀 附课件下载

个推

数据湖 实时数仓 flink window 数仓建设 大数据仓库

天呐,我居然可以隔空作画了

华为云开发者联盟

人工智能 华为云 企业号九月金秋榜

基于 K8s 原生扩展的机器学习平台引擎ML Engine_ArchSummit_褚向阳_InfoQ精选文章