2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

使用 TensorFlow 和 Kubernetes 构建 GPU 加速工作流

  • 2018-01-10
  • 本文字数:832 字

    阅读完需:约 3 分钟

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

Daniel Whitenack 在最近举行的北美 2017 KubeCon+CloudNativeCon 大会上分享了如何使用 TensorFlow 和 Kubernetes 进行基于 GPU 的深度学习。

他以物体检测为例子介绍了一种典型的人工智能工作流程。该工作流程包括预处理、模型训练、模型生成和模型推理。这些步骤都可以运行在 Docker 容器里。

模型训练一般是通过框架来完成的,如 TensorFlow 或 Caffe。在这一阶段,GPU 可用于帮助提升性能。深度学习在使用 TensorFlow 或其他框架时,需要借助 GPU 在图像数据上训练模型。

模型训练可以运行在 Kubernetes 集群的 GPU 节点上。Kubernetes 为多 GPU 节点提供了一个非常好的框架,按照如下步骤可实现更好的工作流:

  • 将数据正确地分配代码(pod)。

  • 在正确的节点上处理数据。

  • 在正确的时间触发正确的代码。

该工作流程也可以用于跟踪哪个版本的代码和数据产生了哪些结果(用于调试、维护和合规的目的)。

Kubernetes 为此提供了基础支持,也因为它具备了可移植性和可伸缩性,所以非常适用于机器学习项目。

Whitenack 介绍了一个叫作 Pachyderm 的开源项目,它支持数据管道,并为 Kubernetes 提供了数据管理层。工作流中一般会包含多个数据预处理和后处理作业。Pachyderm 提供了统一的框架用于调度多步骤工作流、数据管理和向 GPU 分配工作负载。

Pachyderm 框架的特性包括:

  • 数据版本:版本化的数据可存储在 Amazon S3 数据库里。

  • 用于分析的容器。

  • 分布式管道或数据处理 DAG。

  • 数据监管:可用于合规和调试。

Whitenack 在现场进行了演示,使用 Pachyderm 和 Kubernetes 实现了一个 AI 工作流。示例应用程序实现了图像到图像的转换,将卫星图自动转成地图。他在例子中使用 TensorFlow 进行模型训练和推理。

如果读者对 Pachyderm 框架感兴趣,可以参考机器学习示例开发者文档 Kubernetes GPU 文档,或者直接加入 Slack 通道

查看英文原文 Building GPU Accelerated Workflows with TensorFlow and Kubernetes

2018-01-10 18:003455
用户头像

发布了 322 篇内容, 共 158.5 次阅读, 收获喜欢 148 次。

关注

评论

发布
暂无评论
发现更多内容

证券行业异构系统众多,微服务和网格如何全都要

网易数帆

微服务 云原生 服务网格 证券行业

ThreadLocal变量存储为什么不用Map

M

原创 ThreadLocal Java'

TiDB 7.1 LTS 发版:为关键业务提供业务稳定性和多租户场景支持

PingCAP

数据库 开源 TiDB

Django笔记四十二之model使用validator验证器

Hunter熊

Python django model validator

AIGC繁花,绽放在精耕的算力土壤之上

脑极体

AI 服务器

更好的保护你的数据KEY

坚果

6 月 优质更文活动

常用的表格检测识别方法-表格内容识别方法

合合技术团队

文字识别 表格识别 表格检测

消失的死锁:从 JSF 线程池满到 JVM 初始化原理剖析 | 京东云技术团队

京东科技开发者

JVM 线程池 jsf 企业号 6 月 PK 榜

平凯星辰重磅支持 2023 开放原子全球开源峰会,开源数据库分论坛成功召开

编程猫

WiFi7来了,WiFi6会下岗吗?

脑极体

wifi

Disk Xray for Mac:Mac磁盘精准分析工具

背包客

macos Mac软件 MacBook Pro Mac磁盘管理 Disk Xray

Windows控制关机锁屏

Geek_7ubdnf

助力数字门户搭建--小程序容器技术

没有用户名丶

数智人力,打造伯恩光学人力资源管理新生态!

用友BIP

人力资源 数智人力

魏可伟受邀参加 2023 开放原子全球开源峰会

KaiwuDB

KaiwuDB 2023开放原子全球开源峰会

线性代数(一)矩阵和方程组

Studying_swz

6 月 优质更文活动

linux常见命令总结

Studying_swz

6 月 优质更文活动

Capture One Pro 23 for Mac(Raw图像处理软件) 中文最新版

背包客

深度学习 macos Mac软件 图像处理软件 Capture One

C语言编程—内存管理

芯动大师

C语言 内存管理 6 月 优质更文活动

STM32单片机上RGB数据转为JPEG格式办法

DS小龙哥

6 月 优质更文活动

小程序的快速渲染机制是如何实现的?

Onegun

小程序 移动应用开发 小程序容器

综合指南|如何为平台工程选择关键 KPI

SEAL安全

KPI 平台工程

阿里云PAIx达摩院GraphScope开源基于PyTorch的GPU加速分布式GNN框架

阿里云大数据AI技术

人工智能 机器学习 gpu GNN 企业号 6 月 PK 榜

不一样的ECS U实例

六月的雨在InfoQ

MySQL nginx 阿里云ECS U 6 月 优质更文活动

易安联新品EnDTA天织·DNS威胁分析平台,开放公测!

权说安全

DNS 零信任 威胁检测

手把手教你实战TDD | 京东云技术团队

京东科技开发者

测试 DDD TDD 企业号 6 月 PK 榜

探讨开源法律共识|2023开放原子全球开源峰会开源法律与合规分论坛成功举办

开放原子开源基金会

开源 开放原子全球开源峰会 开放原子 开源知识产权

WiFi7来了,WiFi6会下岗吗?

白洞计划

wifi

用友发布《数智化赋能泛地产行业高质量发展白皮书》,推动地产行业数智化3.0

用友BIP

使用TensorFlow和Kubernetes构建GPU加速工作流_语言 & 开发_Srini Penchikala_InfoQ精选文章