写点什么

使用 TensorFlow 和 Kubernetes 构建 GPU 加速工作流

  • 2018-01-10
  • 本文字数:832 字

    阅读完需:约 3 分钟

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

Daniel Whitenack 在最近举行的北美 2017 KubeCon+CloudNativeCon 大会上分享了如何使用 TensorFlow 和 Kubernetes 进行基于 GPU 的深度学习。

他以物体检测为例子介绍了一种典型的人工智能工作流程。该工作流程包括预处理、模型训练、模型生成和模型推理。这些步骤都可以运行在 Docker 容器里。

模型训练一般是通过框架来完成的,如 TensorFlow 或 Caffe。在这一阶段,GPU 可用于帮助提升性能。深度学习在使用 TensorFlow 或其他框架时,需要借助 GPU 在图像数据上训练模型。

模型训练可以运行在 Kubernetes 集群的 GPU 节点上。Kubernetes 为多 GPU 节点提供了一个非常好的框架,按照如下步骤可实现更好的工作流:

  • 将数据正确地分配代码(pod)。

  • 在正确的节点上处理数据。

  • 在正确的时间触发正确的代码。

该工作流程也可以用于跟踪哪个版本的代码和数据产生了哪些结果(用于调试、维护和合规的目的)。

Kubernetes 为此提供了基础支持,也因为它具备了可移植性和可伸缩性,所以非常适用于机器学习项目。

Whitenack 介绍了一个叫作 Pachyderm 的开源项目,它支持数据管道,并为 Kubernetes 提供了数据管理层。工作流中一般会包含多个数据预处理和后处理作业。Pachyderm 提供了统一的框架用于调度多步骤工作流、数据管理和向 GPU 分配工作负载。

Pachyderm 框架的特性包括:

  • 数据版本:版本化的数据可存储在 Amazon S3 数据库里。

  • 用于分析的容器。

  • 分布式管道或数据处理 DAG。

  • 数据监管:可用于合规和调试。

Whitenack 在现场进行了演示,使用 Pachyderm 和 Kubernetes 实现了一个 AI 工作流。示例应用程序实现了图像到图像的转换,将卫星图自动转成地图。他在例子中使用 TensorFlow 进行模型训练和推理。

如果读者对 Pachyderm 框架感兴趣,可以参考机器学习示例开发者文档 Kubernetes GPU 文档,或者直接加入 Slack 通道

查看英文原文 Building GPU Accelerated Workflows with TensorFlow and Kubernetes

2018-01-10 18:003473
用户头像

发布了 322 篇内容, 共 159.3 次阅读, 收获喜欢 148 次。

关注

评论

发布
暂无评论
发现更多内容

劳工管理系统(源码+文档+讲解+演示)

深圳亥时科技

MyEMS 能效协同机制的构建与实践

开源能源管理系统

开源 能源管理系统

企业如何利用 MyEMS 开源能源管理系统实现节能减排

开源能源管理系统

开源 能源管理系统

微店商品详情API开发指南

tbapi

微店API 微店数据采集 微店商品详情API 微店详情API

哈尔滨二级等保:为中小企业网络安全筑牢坚实防线

等保测评

大数据-71 Kafka 从 sendfile 到 mmap:高性能背后的 I/O 技术全解析

武子康

Java 大数据 kafka 分布式 消息队列

App 开发困局如何破?从成本高企到差异化突围的实战路径

Byte_Me

小程序 App APP开发

业务监控—一站式搭建jmeter+telegraf+influxdb+Grafana看板

京东科技开发者

2025年十大BI软件权威排名:中大型企业数据分析平台深度解析

数据集成与治理

BI 分析工具

BI 软件 FineBI——中大型企业数据分析降本增效首选

数据集成与治理

BI 报表

保护身份,保障数据:加强企业安全的五项关键实践

运维有小邓

《实时分析市场报告 2025》上线 | 从批处理到实时洞察,2025 年全球实时分析市场全景解读

tapdata

实时数据 CDC 实时分析 市场研究报告 流式处理

汽车之家联合HarmonyOS SDK,深度构建鸿蒙生态体系

HarmonyOS SDK

HarmonyOS NEXT HarmonyOS SDK应用服务

1989年的模糊测试技术如何在2018年仍发现Linux漏洞

qife122

漏洞挖掘 模糊测试

乔嘉林:创业路上,与自己赛跑|北京卫视《为你喝彩》

Apache IoTDB

MyEMS 开源能源管理系统:构建智能能效管理新范式

开源能源管理系统

开源 能源管理系统

MyEMS:开源基因驱动的能源管理范式革命

开源能源管理系统

开源 能源管理系统

检索增强生成(RAG)入门指南:构建知识库与LLM协同系统

qife122

人工智能 向量数据库

黑龙江二级等保:助力区域网络安全水平整体提升

等保测评

本地部署VS Code Server,如何用内网穿透实现无需公网IP远程访问?

贝锐

内网穿透 Server 端 Serverless VSCode WebIDE

移动研发模式升级:从原生开发到全域跨端的技术突围

Byte_Me

小程序 App 移动开发 移动端 移动开发平台

BI 软件 FineBI——中大型企业数据分析降本增效首选

数据集成与治理

BI 分析工具

CST如何设置电压监视器-CST软件教程

思茂信息

cst CST软件 CST Studio Suite

Eventlog Analyzer 怎么帮助企业满足合规性?

运维有小邓

SQL 判断是否“存在”?99% 的人还在写错!

左诗右码

可观测性体系建设五步心法:明业务、立规范、采数据、显特征、获洞见

巴辉特

可观测性 Observability

日志管理演进:从基础到创新

运维有小邓

日志分析 日志管理 日志审计

前端开发中依赖包有问题怎么办

京东科技开发者

使用TensorFlow和Kubernetes构建GPU加速工作流_语言 & 开发_Srini Penchikala_InfoQ精选文章