在 2025 收官前,看清 Data + AI 的真实走向,点击查看 BUILD 大会精华版 了解详情
写点什么

使用 TensorFlow 和 Kubernetes 构建 GPU 加速工作流

  • 2018-01-10
  • 本文字数:832 字

    阅读完需:约 3 分钟

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

Daniel Whitenack 在最近举行的北美 2017 KubeCon+CloudNativeCon 大会上分享了如何使用 TensorFlow 和 Kubernetes 进行基于 GPU 的深度学习。

他以物体检测为例子介绍了一种典型的人工智能工作流程。该工作流程包括预处理、模型训练、模型生成和模型推理。这些步骤都可以运行在 Docker 容器里。

模型训练一般是通过框架来完成的,如 TensorFlow 或 Caffe。在这一阶段,GPU 可用于帮助提升性能。深度学习在使用 TensorFlow 或其他框架时,需要借助 GPU 在图像数据上训练模型。

模型训练可以运行在 Kubernetes 集群的 GPU 节点上。Kubernetes 为多 GPU 节点提供了一个非常好的框架,按照如下步骤可实现更好的工作流:

  • 将数据正确地分配代码(pod)。

  • 在正确的节点上处理数据。

  • 在正确的时间触发正确的代码。

该工作流程也可以用于跟踪哪个版本的代码和数据产生了哪些结果(用于调试、维护和合规的目的)。

Kubernetes 为此提供了基础支持,也因为它具备了可移植性和可伸缩性,所以非常适用于机器学习项目。

Whitenack 介绍了一个叫作 Pachyderm 的开源项目,它支持数据管道,并为 Kubernetes 提供了数据管理层。工作流中一般会包含多个数据预处理和后处理作业。Pachyderm 提供了统一的框架用于调度多步骤工作流、数据管理和向 GPU 分配工作负载。

Pachyderm 框架的特性包括:

  • 数据版本:版本化的数据可存储在 Amazon S3 数据库里。

  • 用于分析的容器。

  • 分布式管道或数据处理 DAG。

  • 数据监管:可用于合规和调试。

Whitenack 在现场进行了演示,使用 Pachyderm 和 Kubernetes 实现了一个 AI 工作流。示例应用程序实现了图像到图像的转换,将卫星图自动转成地图。他在例子中使用 TensorFlow 进行模型训练和推理。

如果读者对 Pachyderm 框架感兴趣,可以参考机器学习示例开发者文档 Kubernetes GPU 文档,或者直接加入 Slack 通道

查看英文原文 Building GPU Accelerated Workflows with TensorFlow and Kubernetes

2018-01-10 18:003505
用户头像

发布了 322 篇内容, 共 160.5 次阅读, 收获喜欢 148 次。

关注

评论

发布
暂无评论
发现更多内容

面试软件测试所需要掌握的7个技能

华为云开发者联盟

sql 面试 测试

字节内部MySQL宝典意外流出!极致经典,堪称数据库的天花板

比伯

Java 编程 架构 面试 技术宅

Spring Cloud Gateway (六) 自定义 Global Filter

Java 网关 SpringcloudGateway

内存分页不就够了?为什么还要分段?还有段页式?

yes

操作系统 内存管理

阿里拆中台?从架构师角度解读中台

javaba韩老师

架构 中台战略 TOGAF 中台的前世今生 中台的由来

基于 Flink+Iceberg 构建企业级实时数据湖

Apache Flink

大数据 flink 流计算

深层互联带领自动旅游讲解耳麦进入“非入耳”时代

DT极客

「每日一题」抖音面试题:请阐述vue数据绑定的实现原理

Java架构师迁哥

免费下载来自阿里巴巴 双11 的《云原生大规模应用落地指南》

阿里巴巴云原生

阿里巴巴 阿里云 开发者 云原生 k8s

移动设备管理平台的搭建(基于STF/ATXServer2)

行者AI

人工智能

40亿条/秒!Flink流批一体在阿里双11首次落地的背后

Apache Flink

flink 流计算

优化了MYSQL大量写入问题,老板奖励了1000块给我

华为云开发者联盟

MySQL sql 写入

打造新一代企业数据驱动体系

StarRocks

数据库 大数据 数据分析 数字化转型 OLAP

“区块链+有机蔬菜”农产品溯源项目落地

CECBC

农业发展 农业

架构师训练营第六周作业

zamkai

Flink 双流 Join 的3种操作示例

Apache Flink

flink 流计算

基于GaussDB(DWS)的全文检索特性,了解一下?

华为云开发者联盟

数据库 数据仓库 数据

敏捷与安全不可兼得吗?看完这篇文章后,我想说:未必!

华为云开发者联盟

敏捷 安全 开发

主从哨兵集群终于给你说明白了

moon聊技术

数据库 redis

Flink SQL 实战:HBase 的结合应用

Apache Flink

flink

引起故障的原因

jorden wang

如何利用状态同步开发一款游戏

Isa 婷婷

node.js 游戏开发 24小时自助游戏厅 联机游戏

如何通过 Serverless 轻松识别验证码?

阿里巴巴云原生

人工智能 阿里云 Serverless 云原生 数据采集

light-rtc: 理念与实践

阿里云CloudImagine

架构 音视频 WebRTC RTC

2020年不容错过的10本大咖之作 | 你最Pick哪一本?

博文视点Broadview

软件测试--前后端数据交互

测试人生路

软件测试

干了三年的Java,你竟然还不会MySQL性能优化

华为云开发者联盟

Java MySQL sql

2021 第一份唠嗑

大头虾

数字化浪潮下 哪些银行业务或“生变”

CECBC

金融科技

干货|原来IPFS是这样存储文件的

QTech

区块链技术 IPFS 星际文件系统

LeetCode题解:264. 丑数 II,三指针,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

使用TensorFlow和Kubernetes构建GPU加速工作流_语言 & 开发_Srini Penchikala_InfoQ精选文章