微博深度学习平台基于 Kubernetes 的分布式解决方案

阅读数:1347 2019 年 9 月 10 日 14:02

微博深度学习平台基于Kubernetes的分布式解决方案

ArchSummit 北京 2018 大会上,于翔讲师做了《微博深度学习平台基于 Kubernetes 的分布式解决方案》主题演讲,主要内容如下。

演讲简介

随着深度学习在微博业务场景中的广泛使用,深度学习平台遇到一些挑战:离线训练方面,各业务方需求丰富多样,任务管理纷繁复杂,大数据与大模型带来训练时长的压力;在线推理方面,基于模型服务的特殊性,如何在满足微博大流量高性能的在线业务需求同时,保证服务的高可用与稳定性。

本次分享从以上两个维度切入,基于 K8s 构建分布式离线与在线方案,解决上述遇到的挑战。

演讲提纲

  1. 介绍背景,微博业务与深度学习平台;
  2. 介绍离线训练遇到的挑战,方案选型 (Yarn & K8s),方案介绍 (基于 tfjob) 以及相关效果;
  3. 介绍在线推理遇到的挑战,方案选型(自定义服务发现)解决方案 (K8s deployment 等基础资源对象)。

听众受益点

  • 对深度学习感兴趣的听众,可以了解到深度学习算法在业务应用的基本流程;
  • 深度学习平台的基础架构;
  • 大规模深度学习会遇到的瓶颈与 K8s 解决方案;
  • 在线模型服务的服务特性与一些优化点。

讲师介绍

于翔

新浪微博 机器学习研发架构师

现就职于新浪微博,在机器学习平台中曾负责特征工程项目,目前主要负责算法服务平台与深度学习平台的搭建与开发。

微博深度学习平台基于Kubernetes的分布式解决方案

微博深度学习平台基于Kubernetes的分布式解决方案

微博深度学习平台基于Kubernetes的分布式解决方案

微博深度学习平台基于Kubernetes的分布式解决方案

微博深度学习平台基于Kubernetes的分布式解决方案

微博深度学习平台基于Kubernetes的分布式解决方案

微博深度学习平台基于Kubernetes的分布式解决方案

微博深度学习平台基于Kubernetes的分布式解决方案

微博深度学习平台基于Kubernetes的分布式解决方案

微博深度学习平台基于Kubernetes的分布式解决方案

完整演讲 PPT 下载链接

https://archsummit.infoq.cn/2018/beijing/schedule

评论

发布