NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

看 TensorFlow 如何从 AI 工具变身 AI 产品

  • 2020-03-06
  • 本文字数:1624 字

    阅读完需:约 5 分钟

看 TensorFlow 如何从 AI 工具变身 AI 产品

IDC 发布的报告显示,2017 年大数据全球市场规模将达 324 亿美元,年复合增长率为 27%,其中市场增长最快的领域是数据存储领域(53.4%)。而 BBC 预测,人工智能市场 2020 年全球市场规模将达到 183 亿美元。


企业伴随着业务的发展会积累海量的数据,而如何利用这部分数据给企业再次创造价值已经成为目前各个大数据及 AI 行业所关注的重点。


对于结构化数据(表格及数据库等)和非结构化数据(图片音频等)的分析方法及工具选择也是多种多样的。而 TensorFlow 则由于其开源和功能强大等众多优点受到众多专家的追捧。并且开发者也热情高涨地积极贡献。


但 TensorFlow 的配置和使用非常复杂,尤其在分布式环境中。TensorFlow 本身的出发点是作为一个 AI 工具存在的,而要将其产品化则存在着诸多问题需要解决。



Supporting the Cloud Native Ecosystem


2017 年 3 月 29-30 日,由 CNCF 主办的 KubeCon 在柏林拉开序幕,才云(Caicloud)首席大数据科学家郑泽宇和云开源高级工程师赵慧智受邀在会上做 TensorFlow 运行在 Kubernetes 上的技术演讲,并和大家分享了在提供这一 TensorFlow as a Service(TaaS)的技术点实现方式及解决方案。


简单来说,才云在为企业提供大数据及 AI 解决方案的同时,还为大数据及 AI 的开发者和科研机构提供一个可以实现 TensorFlow 产品化的解决方案,尤其解决其在分布式环境系统中的诸多问题。


通过基于 Kubernetes 的 TensorFlow,并且在 Kubernetes 上支持 GPU 和可视化的 UI 封装,使得 TensorFlow 可以在其原有的功能不为损失的情况下,极大的简化和封装 TensorFlow 在分布式中遇到的诸多问题,在此之上提供更多的功能。


这次才云的演讲主要包括:


1、分布式 TensorFlow 在机器学习中的作用和发展


2、How to enable GPU on Kubernetes


3、TensorFlow On Kubernetes


4、TaaS (TensorFlow as a Service)


以下是具体演讲内容摘要:TensorFlow 虽然在国内外大型企业都已经得到了广泛的应用,但是在广大中小型 IT 企业以及传统企业中,要将其应用于生产环境却仍然存在挑战。


在单机环境下,即使使用目前最先进的 GPU 都无法满足其计算量的要求。而在集群环境下, TensorFlow 存在高门槛、难配置、难管理等问题。


如下图所示,传统的分布式 TensorFlow 没有把 CPU 跟 GPU 进行虚拟化。只能直接使用物理 GPU 资源,无法让利用率最大化。



传统分布式 TensorFlow 带来管理方面的难题,比如:训练任务队列,用户权限管理,集群管理,模型服务管理,模型自动部署,资源管理,训练任务调度等等。



如下图所示,当分布式系统使用 K8S 对 GPU 虚拟化后,原生的 K8S 对于 GPU 的支持很弱。


但是,通过才云的平台虚拟化后,可以对 GPU 进行更加灵活自由的调度使用, 从而提升深度学习任务的训练速度。



同时,才云两位大数据专家在大会上演示了 Caicloud 的 TaaS 界面:



而且,还从环境搭建,模型训练,监控管理及模型在线服务等板块把原生态 TensorFlow 跟 TaaS 平台的对比。



以下页面展示的是 TaaS 训练资源池里,可以支持多个用户,同时提交多个任务。通过这样的 TaaS 平台,我们可以任务管理,资源调度,任务状态监控,及任务优先级调度。最大化提升集群的资源使用率,及任务的执行效率。



最后,介绍了才云的产品平台:才云的 Caicloud 平台依托于物理机,虚拟机,微软云,AWS 云平台,阿里云平台,创建了 K8S 集群。在多个 K8S 集群之上,我们建立了 Caicloud CLaaS 容器集群管理平台,平台之上有:分布式深度学习平台 TaaS,CI/CD 工具 Cyclone,以及 Cargo。



在这次 KubeCon 中,才云专家与 OpenAI 及 Google GCE Manager 分别讨论了如何部署 TensorFlow on Kubernetes 及其技术点实现方式和 GPU 在 GCE 中的 upstream 现状和后续研发工作。



左起:Vicki Cheung、赵慧智、Jonas Schneider、郑泽宇



才云首席大数据科学家郑泽宇在柏林 KubeCon 上演讲



才云云开源高级工程师赵慧智在柏林 KubeCon 上演讲


本文转载自才云 Caicloud 公众号。


原文链接:https://mp.weixin.qq.com/s/jU19P3CNH2v_WdgflSMLRw


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-03-06 20:46768

评论

发布
暂无评论
发现更多内容

系统管理-Linux重定向与管道

Albert Edison

Linux centos 运维 服务器 8月月更

C++ 中的四种智能指针

桑榆

c++ 8月月更

C++为什么始终无法取代 C 吗?

Jackpop

VS Code如何打造C/C++开发环境?

Jackpop

SRv6网络典型部署场景

穿过生命散发芬芳

8月月更 SRv6

gulp 的常用 API

Jason199

js gulp 8月月更

SRE运维解密-服务质量目标:SLI,SLO,SLA

董哥的黑板报

微服务 运维 云原生 SRE Google

钝感力与自我和解

Amazing_eve

#开源

如何克服紧张

踏雪痕

Kubernetes 实现灰度和蓝绿发布

CTO技术共享

开源 灰度发布 蓝绿发布 签约计划第三季 8月月更

头脑风暴:零钱兑换

HelloWorld杰少

8月月更

Kubernetes信息安全

CTO技术共享

开源 信息安全 Kubernetes 集群 签约计划第三季 8月月更

开源一夏 | jQuery 密码验证和深入理解JSONP【前端jQuery框架】

恒山其若陋兮

开源 8月月更

电动汽车充电站的部署优化策略

乌龟哥哥

8月月更

Android 应用安全机制实现方案探究

No Silver Bullet

android 签约计划第三季 8月月更 安全机制

【ELT.ZIP】OpenHarmony啃论文俱乐部——学术科研方法论沉淀辑

ELT.ZIP

方法论 OpenHarmony ELT.ZIP 啃论文

Docker基础:Docker 常用命令梳理

天使不哭

#开源 8月月更

Kubernetes故障排查eBPF

CTO技术共享

开源 ebpf 签约计划第三季 8月月更

文本词频统计的利器 Trie树

Five

c 算法题 8月月更

Go-Excelize API源码阅读(一)——NewFile()

Regan Yue

Go 开源 源码刨析 8月月更

Kubernetes网络模型

CTO技术共享

开源 Kubernetes 集群 签约计划第三季 8月月更

Kubernetes证书过期怎么玩

CTO技术共享

开源 签约计划第三季 8月月更

关于 SAP UI5 floating footer 显示与否的单步调试以及使用 SAP UI5 的收益

Jerry Wang

前端开发 SAP SAP UI5 ui5 8月月更

Kubernetes Cilium展示

CTO技术共享

开源 cilium Kubernetes 集群 签约计划第三季

百家号打击挂载恶意导流链接行为,必须严厉打击恶意挂链灰产

石头IT视角

Python 教程之输入输出(5)—— input() 函数中的漏洞 – Python 2.x

海拥(haiyong.site)

Python 8月月更

Kubernetes 调度器优化

CTO技术共享

开源 Kubernetes 集群 签约计划第三季

Kubernetes构建Redis 集群

CTO技术共享

redis 开源 签约计划第三季 8月月更

Service Mesh迁移原则

阿泽🧸

Service Mesh 8月月更

一起学习集合框架之 TreeSet

宇宙之一粟

Java 8月月更

Kubernetes内存泄露怎么玩

CTO技术共享

开源 内存泄漏 签约计划第三季 8月月更

看 TensorFlow 如何从 AI 工具变身 AI 产品_AI&大模型_才云科技_InfoQ精选文章