写点什么

GPU 在 Docker/K8S/TensorFlow 的应用以及实操经验

  • 2020-03-09
  • 本文字数:3982 字

    阅读完需:约 13 分钟

GPU 在 Docker/K8S/TensorFlow 的应用以及实操经验

据悉,Kubernetes 上游计划在其 1.6 发行版本中加入 GPU 功能,提升应用程序运行效率。因为很多应用使用 GPU 可以提升效率,比如,大数据平台应用 TensorFlow 通过使用 GPU 效率可以提升几十甚至几百倍。

那么,GPU 是如何应用在 Docker/K8S/TensorFlow 这些平台上起到提升效率的作用的?本文由才云新晋大将 赵慧智 整理编写。主要描写了 GPU 在 Docker、Kubernetes、TensorFlow 以及 Kubernetes+TensorFlow 领域的应用,并介绍了在开发领域自己的实践经验,希望给大家带来借鉴和指导意义。

作者简介:


赵慧智,2016 年下旬加入才云,前 HPE 的 Container team 的 Tech Lead,Kubernetes Member,在软件研发领域有 10 多年的经验。曾在 HP 和 HPE 工作五年多,先前负责过 Linux Kernel 及 driver 开发,后负责 Container 在 HPE Server 上的性能及团队管理工作,之后负责 Kubernetes/Mesos 在 HPE 服务器上的硬件 enablement 及开源工作。

为什么离开惠普,加入才云

2016 年下旬,前惠普 Kubernetes 技术领域的 GPU 专家赵慧智加盟才云。说起自己加入才云的原因,赵慧智从国内 Kubernetes 现状、未来发展趋势几个方面大致说了一下:“当时自己对 Kubernetes 有很多想法,觉得在云平台里面其实有很多有意思的事情。


比方说,如何提供稳定的中间层来让企业的业务更加的稳定和安全;如何降低硬件的成本;如何应对业务的突飞猛进和弹性支持,诸如此类。一开始喜欢 Kubernetes,觉得在这两个技术以后将在技术领域大有作为。


在技术领域,了解到才云研发实力很强,并且在 Kubernetes 里面有影响力,来到公司体验之后感觉工作氛围很好,于是就过来了。

对于 Kubernetes 1.6 中 GPU 功能的想法

赵慧智说:“关于 Kubernetes 1.6,我是希望把 GPU 的功能加进去,因为目前很多应用都能在 GPU 上跑出比 CPU 高很多的性能,而在云里面一个很好的地方是通用化,例如一个应用迁移到另外一个 VM 或者 Server 上可以继续运行,但是通用化也导致了一些硬件特性被屏蔽了,GPU 就是其中之一,所以在 Kubernetes 这样一种 container 编排的环境中如果能支持 GPU,那么将会对一些应用的性能产生质的影响,例如深度学习、AI 等。”


以下是赵慧智 GPU 分享具体内容:

GPU

图形处理器(英语:graphics processing unit,缩写:GPU),又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上运行绘图运算工作的微处理器。



(图为:从最初的 GEFORCE 6600 GT 到 K80 的多 GPU 卡协同工作)


GPU 最大的好处就在于可以通过远远多于 CPU 的 core 数量来达到并行计算。

CUDA

CUDA(Compute Unified Device Architecture,统一计算架构)是由 NVIDIA 所推出的一种集成技术,是该公司对于 GPGPU 的正式名称。通过这个技术,用户可利用 NVIDIA 的 GeForce 8 以后的 GPU 和较新的 QuadroGPU 进行计算。亦是首次可以利用 GPU 作为 C- 编译器的开发环境。NVIDIA 营销的时候,往往将编译器与架构混合推广,造成混乱。实际上,CUDA 可以兼容 OpenCL 或者 NVIDIA 的 C- 编译器。



(上图为 CUDA 编程的基本逻辑)


CUDA 提供了对于一般性通用需求的大规模并发编程模型,使用户可以对 NVIDIA GPU 方便的对于 GPU 进行并发性编程。CUDA 编程模型与传统编程模型比较:样例:将数组 a 与数组 b 相加,并将结果赋值给 c


传统方式:



数组会按照从 a[0] + b[0] 一直顺序执行到 a[n] + b[n]。

多核计算方式:


如果进行编译优化会在特定操作系统里面把这个数组的相加分配到不同的 core 里面执行,这样所有的计算就会按照 core 的数量进行并发,那么我们可以看到在数组操作中,效率的高低取决于 core 的多少。而通常个人的计算机一般会有 2-8 个 core 不等,而大部分服务器也很少会超过 100 个 core。然而,一个 GPU 很容易就可以达到上千个 core,这样在进行并行计算的时候可以实现十几甚至上百上千倍的效率提升。而 GPU 的价格远远低于相同个数 core 的 CPU(多个)的价格。既然 CUDA 可以提供一般性的并发编程模型,那么我们来看看在 CUDA 平台上上面的代码该怎么写。

代码示例:


申请一块 GPU 的内存,然后就可以把所有的并发操作都交给 GPU。

GPU in Docker

关键词:–device


Docker 是具有把 device 通过 cgroup 里面的 deivce 来 mapping 到 container 上的能力的,我们可以通过“–device”来达到这个目的。


docker run -it --device/dev/nvidia0:/dev/nvidia0 \     // 第 1 个 Nvidia 卡       --device /dev/nvidia1:/dev/nvidia1 \              // 第二个 Nvidia 卡       --device /dev/nvidiactl:/dev/nvidiactl \           // 这个是作为 Nvidia 操作的必须 mount 的设备       --device /dev/nvidia-uvm:/dev/nvidia-uvm \ // 这个是作为 Nvidia 操作的必须 mount 的设备       tf-cuda:v1.1beta/bin/bash
复制代码


然后我们可以通过 “docker inspect:” 来检查 container 所指定的设备。



然后我们在 container 的内部就可以看到相应的设备并且可以使用了。


在设备已经可以绑定了之后,我们就可以提供 driver 和 CUDA 的支持了,而 Nvidia 给了一个关于如何在 container 层面支持 GPU 的原型,是基于 Docker 的,叫做 Nvidia Docker。


Nvidia Docker 所提供的功能:


Volume: Nvidia driver/NVML tools.Assign GPUs to container automatically.Basic cuda container build.Multi-platform environment.
复制代码



支持 GPU 的 container 在 Nvidia Docker 里面的层级关系。


目前我们已经支持了如何在 container 的层面支持 GPU,但是这还远远不够在 container 编排环境里面支持 GPU,譬如我们在 Kubernetes 里面支持 GPU。

GPU in K8S:

在 Kubernetes 里面我们做一些关于 GPU 的工作才能让 GPU 能够被调度起来,功能如下:


GPU discovery.(kubelet):加入这个功能是为了能够让 Kubelet 在启动的同时就可以查找本机上的 GPU,而这个 GPU 消息可以发送给 apiserver,但 apiserver 里面有 GPU 的信息后,就可以通过 kube-scheduler 进行调度了。


GPUassignment/release. (kubelet):当一个 container 存在 GPU 需求的时候,我们可以通过 docker 的 --device 层面来支持对于 GPU 的 assign 和 release Resource API.(kube-apiserver/kube-scheduler):在 kube-scheduler 和 kubelet 之间需要一个关于 GPU 资源的协议支持,譬如目前有 CPU,memory 等,为了让 GPU 能够被调度,我们需要引入 GPU 作为一个资源可以被调度。

GPU in TensorFlow:

在分布式 TensorFlow 环境里面,各个 worker 不互相通信,只会跟 parameter server 通信。所以即使将各个 worker 部署到不同的机器上也不会造成性能损耗。目前 TensorFlow 支持 GPU 进行 training 的运算,但需要进行编译时设置。


GPU in K8S + TensorFlow

由于在部署分布式 TensorFlow 时极其繁琐,并且在每次扩容都需要进行很多设置和操作。所以提供基于容器化的 TensorFlow 并运行在 Kubernetes 上就使其变得相当容易,而我们需要做的,就是在上面提到的如何让 Kubernetes 支持 GPU 的情况下,将 TensorFlow 容器化。



本文转载自才云 Caicloud 公众号。


原文链接:https://mp.weixin.qq.com/s/j8hcEjDvRGhvTGCc30mA6w


2020-03-09 17:511131

评论

发布
暂无评论
发现更多内容

NFTScan 与 WalletFrens 达成合作伙伴,由 NFTScan 为其提供多链 NFT 数据服务!

NFT Research

合作 NFT\

vue2.x与vue3.x中自定义指令详解

不叫猫先生

Vue 6 月 优质更文活动

前端基于DOM或者Canvas实现页面水印

不叫猫先生

Vue canvas 6 月 优质更文活动

2种GaussDB(DWS)查看作业运行信息方式

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 6 月 PK 榜

Acrobat Pro DC 2023 for Mac(PDF编辑器) 中文最新

背包客

macos Mac软件 pdf编辑工具 Acrobat DC 2023 Acrobat DC

软件测试|抓包工具Charles--出现unknown怎么解决?

霍格沃兹测试开发学社

Linux常用命令

Geek_7ubdnf

为开发者“铸剑”,一图揭秘华为云CodeArts IDE四大特性

华为云PaaS服务小智

云计算 开发者 华为云

联盟送福利:云上掘金,开启你收入的第二增长曲线

华为云开发者联盟

云计算 华为云 华为云开发者联盟 企业号 6 月 PK 榜

Wallys /MediaTek MT7915 DR7915/Wi-Fi 6 Wave 1+ chipset/support openwrt

Cindy-wallys

MT7915

HStore表全了解:实时入库与高效查询利器

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 6 月 PK 榜

Vue-后置路由守卫(afterEach)以及独享路由守卫(beforeEnter)

不觉心动

6 月 优质更文活动

dart-sass与node-sass的区别以及使用dart-sass可能会出现的问题

不叫猫先生

CSS SASS 6 月 优质更文活动

建设数字工厂:生产物料齐套检查的实现方法

华为云开发者联盟

华为云 华为云开发者联盟 企业号 6 月 PK 榜

Downie 4 for Mac(最好用的视频下载软件)

背包客

macos Mac软件 mac软件下载 Downie 4 Mac版 Downie4

vue使用Element-ui组件库-按需引入

我搬去水星了

6 月 优质更文活动

Vue-路由器的两种工作模式(history和hash)

不觉心动

6 月 优质更文活动

喜报|瑞云科技荣获“年度汽车数字化营销供应商”奖

3DCAT实时渲染

云仿真 汽车三维可视化 汽车虚拟仿真

VSCode批量迁移插件

Geek_7ubdnf

vue使用Element-ui组件库-完整引入

我搬去水星了

6 月 优质更文活动

ByteHouse+Apache Airflow:高效简化数据管理流程

字节跳动数据平台

airflow 数据管理 bytehouse

财务共享数字化转型是财务管理的未来

用友BIP

财务共享

数据驱动,支撑企业数智化平台升级

用友BIP

数智平台

Vue路由守卫-前置路由守卫(beforeEach)

不觉心动

6 月 优质更文活动

TS类型声明

不叫猫先生

typescript 6 月 优质更文活动

华为手环、耳机等礼品!等你拿~快来参与CodeArtsBuild实践体验!

华为云PaaS服务小智

云计算 华为 华为云

风口上的AIGC,技术岗动不动年薪百万,甚至重金难求?

引迈信息

人工智能 低代码 AIGC ChatGPT

大型企业在财务共享和财务数智化转型上,如何对标世界一流

用友BIP

财务共享

如何实现大型企业全面预算管理?

用友BIP

全面预算 财务共享

香港便宜虚拟主机:高性能、低成本,让你的网站事半功倍!

一只扑棱蛾子

香港主机 香港便宜虚拟主机

大型企业高质量发展第一步,构建全面预算管理体系!

用友BIP

全面预算 财务共享

GPU 在 Docker/K8S/TensorFlow 的应用以及实操经验_文化 & 方法_才云科技_InfoQ精选文章