阿里云飞天发布时刻,领先大模型限免,超7000万 tokens免费体验 了解详情
写点什么

使用 TensorFlow 和 Kubernetes 构建 GPU 加速工作流

  • 2018-01-10
  • 本文字数:832 字

    阅读完需:约 3 分钟

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

Daniel Whitenack 在最近举行的北美 2017 KubeCon+CloudNativeCon 大会上分享了如何使用 TensorFlow 和 Kubernetes 进行基于 GPU 的深度学习。

他以物体检测为例子介绍了一种典型的人工智能工作流程。该工作流程包括预处理、模型训练、模型生成和模型推理。这些步骤都可以运行在 Docker 容器里。

模型训练一般是通过框架来完成的,如 TensorFlow 或 Caffe。在这一阶段,GPU 可用于帮助提升性能。深度学习在使用 TensorFlow 或其他框架时,需要借助 GPU 在图像数据上训练模型。

模型训练可以运行在 Kubernetes 集群的 GPU 节点上。Kubernetes 为多 GPU 节点提供了一个非常好的框架,按照如下步骤可实现更好的工作流:

  • 将数据正确地分配代码(pod)。

  • 在正确的节点上处理数据。

  • 在正确的时间触发正确的代码。

该工作流程也可以用于跟踪哪个版本的代码和数据产生了哪些结果(用于调试、维护和合规的目的)。

Kubernetes 为此提供了基础支持,也因为它具备了可移植性和可伸缩性,所以非常适用于机器学习项目。

Whitenack 介绍了一个叫作 Pachyderm 的开源项目,它支持数据管道,并为 Kubernetes 提供了数据管理层。工作流中一般会包含多个数据预处理和后处理作业。Pachyderm 提供了统一的框架用于调度多步骤工作流、数据管理和向 GPU 分配工作负载。

Pachyderm 框架的特性包括:

  • 数据版本:版本化的数据可存储在 Amazon S3 数据库里。

  • 用于分析的容器。

  • 分布式管道或数据处理 DAG。

  • 数据监管:可用于合规和调试。

Whitenack 在现场进行了演示,使用 Pachyderm 和 Kubernetes 实现了一个 AI 工作流。示例应用程序实现了图像到图像的转换,将卫星图自动转成地图。他在例子中使用 TensorFlow 进行模型训练和推理。

如果读者对 Pachyderm 框架感兴趣,可以参考机器学习示例开发者文档 Kubernetes GPU 文档,或者直接加入 Slack 通道

查看英文原文 Building GPU Accelerated Workflows with TensorFlow and Kubernetes

2018-01-10 18:003238
用户头像

发布了 322 篇内容, 共 150.9 次阅读, 收获喜欢 148 次。

关注

评论

发布
暂无评论
发现更多内容

OpenTiny 妇女节限时特别活动来啦~

OpenTiny社区

开源 Vue 前端 低代码 组件库

比特币BRC20铭文智能打币工具开发

薇電13242772558

BRC-20

直播预告|小白开箱: 云数据库在五朵云上的评测

NineData

评测 选型 云数据库 NineData 云猿生

使用 SPL 高效实现 Flink SLS Connector 下推

阿里巴巴云原生

阿里云 云原生 sls

Sharding-JDBC源码解析与vivo的定制开发

vivo互联网技术

源码解析 sharding-jdbc 定制开发

长连接网关技术专题(十):百度基于Go的千万级统一长连接服务架构实践

JackJiang

即时通讯;IM;网络编程

京东JD商品详情API引领电商智能化新潮流

技术冰糖葫芦

API 接口

探索基于Stable Diffusion的智能绘画大模型

百度开发者中心

人工智能 大模型 绘画工具

探索AI绘画的无限可能:一站式集成大模型工具

百度开发者中心

人工智能 大模型 AI绘画

【技术探讨】无线通信模块拉距测试,是否一定要带笔记本电脑?

Geek_ab1536

义乌等保测评公司有哪些?用哪款堡垒机好?

行云管家

等保 义乌

[自研开源] MyData 使用手册v0.7.1

LIEN

开源 数据集成 业务融合 API对接 mydata

Golang微服务对接Spring-Cloud Gateway

于顾而言

golang Spring Cloud Gateway #微服务

从原理到实践,拆解人工智能的神秘面纱

测吧(北京)科技有限公司

测试

新规正式发布 | 百度深度参编《生成式人工智能服务安全基本要求》

百度安全

TDengine 3.2.3.0 版本发布,流计算等八大板块功能更新

TDengine

tdengine 时序数据库

从原理到实践,拆解人工智能的神秘面纱

测试人

软件测试

简单聊聊租户隔离定义以及优势

行云管家

IT运维 租户 租户隔离

RAG一文读懂!概念、场景、优势、对比微调与项目代码示例

飞桨PaddlePaddle

百度 BAIDU 百度飞桨 开发者说 rag

NineData与OceanBase携手完成产品兼容认证,共筑企业级数据库新生态

NineData

数据库 oceanbase 兼容 NineData 奥星贝斯

揭秘QQ的AI绘画大模型技术——QQGC深度解析

百度开发者中心

大模型 绘画

使用TensorFlow和Kubernetes构建GPU加速工作流_语言 & 开发_Srini Penchikala_InfoQ精选文章