阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

Kubecon 2017 大会 Google 高级产品经理 David Aronchick 访谈:机器学习和 Kubernetes

  • 2018-01-31
  • 本文字数:2172 字

    阅读完需:约 7 分钟

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

在德克萨斯州奥斯汀市举办的 Kubecon 大会已于近日闭幕,会议吸引了超过 4000 名工程师,Kubernetes 成为了大会最热门的主题。由于工作负载的本质和训练算法中典型繁重计算的需求,机器学习话题和它与 Kubernetes 的协同作用在许多会议上都讨论过。

Kubeflow 平台使得 Kubernetes 上的机器学习简单,便携和可扩展,它主要通过提供 manifests 来创建:

  • JupyterHub,以实现和管理 Jupyter 笔记本;
  • 同时适配 CPU 和 GPU 的 Tensorflow 训练控制器;
  • Tensorflow 服务容器。

InfoQ 有幸邀请到 David Aronchick 就相关问题进行了访谈,David Aronchick 不仅是 Google 的产品经理,也是 Kubeflow 的主导者。他在 Kubecon 2017 大会上着重展示了 Kubernetes 和机器学习的协同作用。

InfoQ:机器学习在 Kubecon 大会上获得了很大关注,有什么特别的原因吗?

Aronchick:毫无疑问,机器学习正改变着几乎所有产业的商业模式。在这么大的场合,有那么多的听众,或者说有那么多的行业顶尖人才齐聚一堂来探讨技术的未来,大家总会提到最新的技术趋势和进展。超过 4000 多名的 Kubecon 大会参会者不仅想了解别人所从事的尖端机器学习,也想知道他们是怎么运用这些新技术来改善自己的流程的。

这也就是说,许多新项目都跳出了原有的框架,同时还有不少的改变。实际上,之前的许多公告都说过有完整的机器学习堆栈。我想说我们首先要转换的一个思维是,Kubernetes 上的机器学习不仅仅是指未来的事情,它其实是一个现当下的事情。

InfoQ:您能描述一下机器学习和 Kubernetes 之间的全面协同过程吗?

Aronchick:对于现存大量数据的使用来说,机器学习是一个新方法,同时它也能拿出比以前更准确、更快的方案来解决业务问题。但是,机器学习解决方案的基础架构支持 (大多数都相当复杂) 仍然比较新,需要大量的自定义脚本、依赖项分析和兼容性问题等。而且,机器学习栈堆通常部署在多个位置 (用于开发、训练和生产),保持每个节点的同步使得使用机器学习这个挑战更艰难。

为帮助大规模地部署和运行这些机器学习平台,Kubernetes 提供了一个通用的平台。凭借在多个云环境中运行的丰富编排,Kubernetes 为数据科学家、开发人员和 IT 专业人员提供了一种简单的方法来部署、运行和管理复杂的、多服务的机器学习工作负载。

InfoQ:与使用 Kubeflow 相比,通过 Helm 图表在 Kubernetes 上安装机器学习工具有什么不同呢?

Aronchick: 机器学习工具的实际安装是通过封装系统完成的。目前,Kubeflow 正在使用 ksonnet ,我们仍然希望它可以支持多种不同的部署技术。Kubeflow 的价值更多在于用简单的方式使大量的工具共同运行得更好。我们也在评估所有其他的选项,包括 helm 和 ksonnet 等等,但是,我们想在安装时为用户提供一组更丰富的对象,以确保所涉及的多个包能够很好地共同运行,并且立即可用。

InfoQ:假设我是一名机器学习 / 数据科学家,Kubeflow 会如何简化我的日常工作,而不是通过添加 Kubzernetes 层来使之复杂化?

Aronchick:因为 Kubernetes 提供部署对象和服务端点,如果你是一个数据工程师,这也就意味着你只需要关注和你相关的点,也就是解决数据问题。我们不希望、也不需要数据科学家为了使用 Kubeflow 去安装复杂的 Kubernetes 设置。在你的笔记本电脑上,你可能需要使用 minikube。在你的本地集群上,你可能需要使用由你的组织所提供的 Kubernetes 安装。在云端,你可以使用托管的 Kubernetes 提供程序(provider)。在每种情况下,你都只能看到一条安装 Kubeflow 的指令,按需安装之后你就可以看到你所熟悉的 Tensorflow 服务和 Jupyter 笔记本了。

InfoQ:关于机器学习工具包的基础架构支持如何被集成为 Kubeflow 这一点,您能给我们再详述一下技术细节吗?

Aronchick:因为我们正在使用本地的 Kubernetes 工具,对现有部署包的集成是相当简单的。我们是以一个社区的形式来提供各种各样的选择的,但有的人可能喜欢其他的直接介入的机器学习工具包,因为他们最了解他们的平台(我们现在也正在与其他的团队接洽)。关于下一个我们将要添加的工具包将会是什么这个问题,我们在 Github repo 上进行了一些讨论,但总体来说,我们是愿意为用户提供帮助的。

InfoQ:社区是如何支持 Kubeflow 的呢?还有 Kubeflow 的发展蓝图是什么呢,会不会加入针对类似 Cloud Foundry 和 OpenShift 等平台的支持?

Aronchick: Kubeflow 是本地的 Kubernetes,而且我们正致力于确保这种情况继续下去。这也就意味着在我们的计划中我们将一直支持和 Kubernetes 相一致的任何平台,也包括 Cloud Foundry 和本地 OpenShift(Red Hat 已经加入我们的项目了)。我们也已经对外公布了与 Canonical/Ubuntu,Weaveworks,Caicloud 以及许多其他平台提供商的合作。我们非常重视无所不在的机器学习堆栈的价值,也努力确保 Kubeflow 能够满足每一个数据科学家的需要,随时随地提供服务。

如果想了解主会场演讲和其他记录,可前往 Kubecon 的日程页面获取。

查看英文原文: Q&A on Machine Learning and Kubernetes with David Aronchick of Google from Kubecon 2017


感谢罗远航对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2018-01-31 18:001193
用户头像

发布了 21 篇内容, 共 12.8 次阅读, 收获喜欢 13 次。

关注

评论

发布
暂无评论
发现更多内容

详解命令模式本质及其在高复杂调用中的实践案例

阿里技术

设计模式 命令模式

GitHub上线重量级分布式事务笔记,再也不怕面试官问分布式了

小小怪下士

Java 程序员 分布式 分布式事务 后端

【征文大赛】TiDB 社区第二届征文大赛,一次性带走社区全部新周边,还有bose 降噪耳机、倍轻松按摩仪等你拿!

TiDB 社区干货传送门

MQTT 5.0连接属性

EMQ映云科技

物联网 IoT mqtt 企业号 3 月 PK 榜 连接属性

AI+人类,实现高效网络安全

HummerCloud

人工智能 网络安全

通过Chaos-Mesh打造更稳定TiDB数据库高可用架构(二)

TiDB 社区干货传送门

实践案例 集群管理 管理与运维 故障排查/诊断 安装 & 部署

通过TiDB Operator为已有TiDB集群部署异构集群

TiDB 社区干货传送门

集群管理 管理与运维 故障排查/诊断 安装 & 部署 扩/缩容

课程作业及比赛任务,已支持 Notebook 内直接提交|ModelWhale 版本更新

ModelWhale

人工智能 机器学习 数据分析 canvas 模型管理

买了等保安全设备就一定安全吗?就一定能抵御网络风险呢?

行云管家

网络安全 等保 等级保护

FinOps首次超越安全成为企业头等大事|云计算趋势报告

SEAL安全

云计算 云成本 FinOps 企业号 3 月 PK 榜

TiDB 的事务和一致性校验工具 BANK

TiDB 社区干货传送门

实践案例 故障排查/诊断 数据库架构选型

CI/CD | 不可忽略的Jenkins基础架构修复问题

龙智—DevSecOps解决方案

ci cicd jenkins CI/CD CloudBees

软件测试/测试开发丨后端Web开发框架(Java)

测试人

软件测试 springboot 测试开发

坚如磐石:TiDB 基于时间点的恢复(PiTR)特性优化之路丨6.5 新特性解析

TiDB 社区干货传送门

新版本/特性解读

对TiDB监控方式的一点点研究

TiDB 社区干货传送门

监控 TiDB 源码解读

代码质量与安全 | SAST与DAST有什么区别?

龙智—DevSecOps解决方案

klocwork SAST DAST 静态应用程序安全测试 动态应用程序安全测试

Atlassian Server用户新选择 | 云版和本地部署的数据中心版,总有一个适合您

龙智—DevSecOps解决方案

迁移 Server Atlassian

PCB焊盘设计应掌握哪些要素?

华秋电子

TIDB升级发生故障时,快速强行回退方案

TiDB 社区干货传送门

实践案例

通过Chaos-Mesh打造更稳定TiDB数据库高可用架构(一)

TiDB 社区干货传送门

实践案例 集群管理 管理与运维 扩/缩容 数据库架构设计

手把手教你改 sysbench 代码

TiDB 社区干货传送门

开发语言 管理与运维

物理机安装 TiKV 时 RAID 卡在线配置方式

TiDB 社区干货传送门

实践案例 集群管理 安装 & 部署

国家基础学科公共科学数据中心与和鲸科技共建数据社区

ModelWhale

数据 科学分析 社区 合作

【信创小知识】国产化和信创是一回事吗?怎么理解?

行云管家

信创 国产化

Stable Diffusion原理详解

jarodyv

人工智能 机器学习 计算机视觉 Stable Diffusion 生成式AI

关于加解密、加签验签的那些事 | 得物技术

得物技术

java

研讨会回顾 | Perforce发布数字资产管理工具Helix DAM,帮助您按时按预算交付虚拟产品

龙智—DevSecOps解决方案

版本控制 数字资产 游戏开发 数字资产管理 芯片研发

你没有必要完全辞去工作

宇宙之一粟

创业 个人成长 思维方式 工作 打工人

Region is unavailable的排查总结

TiDB 社区干货传送门

管理与运维 故障排查/诊断 扩/缩容

从代理机制到Spring AOP,这篇给你安排得明明白白的

做梦都在改BUG

Java spring aop 代理机制

DBT 收购 Transform,指标平台已成现代数据栈关键拼图

Kyligence

数据分析 指标管理

Kubecon 2017大会Google高级产品经理David Aronchick访谈:机器学习和Kubernetes_语言 & 开发_Rags Srinivas_InfoQ精选文章