【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

看 TensorFlow 如何从 AI 工具变身 AI 产品

  • 2020-03-06
  • 本文字数:1624 字

    阅读完需:约 5 分钟

看 TensorFlow 如何从 AI 工具变身 AI 产品

IDC 发布的报告显示,2017 年大数据全球市场规模将达 324 亿美元,年复合增长率为 27%,其中市场增长最快的领域是数据存储领域(53.4%)。而 BBC 预测,人工智能市场 2020 年全球市场规模将达到 183 亿美元。


企业伴随着业务的发展会积累海量的数据,而如何利用这部分数据给企业再次创造价值已经成为目前各个大数据及 AI 行业所关注的重点。


对于结构化数据(表格及数据库等)和非结构化数据(图片音频等)的分析方法及工具选择也是多种多样的。而 TensorFlow 则由于其开源和功能强大等众多优点受到众多专家的追捧。并且开发者也热情高涨地积极贡献。


但 TensorFlow 的配置和使用非常复杂,尤其在分布式环境中。TensorFlow 本身的出发点是作为一个 AI 工具存在的,而要将其产品化则存在着诸多问题需要解决。



Supporting the Cloud Native Ecosystem


2017 年 3 月 29-30 日,由 CNCF 主办的 KubeCon 在柏林拉开序幕,才云(Caicloud)首席大数据科学家郑泽宇和云开源高级工程师赵慧智受邀在会上做 TensorFlow 运行在 Kubernetes 上的技术演讲,并和大家分享了在提供这一 TensorFlow as a Service(TaaS)的技术点实现方式及解决方案。


简单来说,才云在为企业提供大数据及 AI 解决方案的同时,还为大数据及 AI 的开发者和科研机构提供一个可以实现 TensorFlow 产品化的解决方案,尤其解决其在分布式环境系统中的诸多问题。


通过基于 Kubernetes 的 TensorFlow,并且在 Kubernetes 上支持 GPU 和可视化的 UI 封装,使得 TensorFlow 可以在其原有的功能不为损失的情况下,极大的简化和封装 TensorFlow 在分布式中遇到的诸多问题,在此之上提供更多的功能。


这次才云的演讲主要包括:


1、分布式 TensorFlow 在机器学习中的作用和发展


2、How to enable GPU on Kubernetes


3、TensorFlow On Kubernetes


4、TaaS (TensorFlow as a Service)


以下是具体演讲内容摘要:TensorFlow 虽然在国内外大型企业都已经得到了广泛的应用,但是在广大中小型 IT 企业以及传统企业中,要将其应用于生产环境却仍然存在挑战。


在单机环境下,即使使用目前最先进的 GPU 都无法满足其计算量的要求。而在集群环境下, TensorFlow 存在高门槛、难配置、难管理等问题。


如下图所示,传统的分布式 TensorFlow 没有把 CPU 跟 GPU 进行虚拟化。只能直接使用物理 GPU 资源,无法让利用率最大化。



传统分布式 TensorFlow 带来管理方面的难题,比如:训练任务队列,用户权限管理,集群管理,模型服务管理,模型自动部署,资源管理,训练任务调度等等。



如下图所示,当分布式系统使用 K8S 对 GPU 虚拟化后,原生的 K8S 对于 GPU 的支持很弱。


但是,通过才云的平台虚拟化后,可以对 GPU 进行更加灵活自由的调度使用, 从而提升深度学习任务的训练速度。



同时,才云两位大数据专家在大会上演示了 Caicloud 的 TaaS 界面:



而且,还从环境搭建,模型训练,监控管理及模型在线服务等板块把原生态 TensorFlow 跟 TaaS 平台的对比。



以下页面展示的是 TaaS 训练资源池里,可以支持多个用户,同时提交多个任务。通过这样的 TaaS 平台,我们可以任务管理,资源调度,任务状态监控,及任务优先级调度。最大化提升集群的资源使用率,及任务的执行效率。



最后,介绍了才云的产品平台:才云的 Caicloud 平台依托于物理机,虚拟机,微软云,AWS 云平台,阿里云平台,创建了 K8S 集群。在多个 K8S 集群之上,我们建立了 Caicloud CLaaS 容器集群管理平台,平台之上有:分布式深度学习平台 TaaS,CI/CD 工具 Cyclone,以及 Cargo。



在这次 KubeCon 中,才云专家与 OpenAI 及 Google GCE Manager 分别讨论了如何部署 TensorFlow on Kubernetes 及其技术点实现方式和 GPU 在 GCE 中的 upstream 现状和后续研发工作。



左起:Vicki Cheung、赵慧智、Jonas Schneider、郑泽宇



才云首席大数据科学家郑泽宇在柏林 KubeCon 上演讲



才云云开源高级工程师赵慧智在柏林 KubeCon 上演讲


本文转载自才云 Caicloud 公众号。


原文链接:https://mp.weixin.qq.com/s/jU19P3CNH2v_WdgflSMLRw


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-03-06 20:46766

评论

发布
暂无评论
发现更多内容

【大模型】快速体验百度智能云千帆AppBuilder搭建知识库与小助手

阿Q说代码

知识库 千帆大模型平台 AppBuilder 小助手

基于大模型的低代码平台架构

百度开发者中心

人工智能 低代码 大模型

什么是DDOS流量攻击,DDoS防护安全方案

德迅云安全杨德俊

云API错误码的设计规则

EquatorCoco

Python 数据库 API

聚道云软件连接器:打通金蝶云星空与招商银行CBS,提升企业财务和银行业务效率

聚道云软件连接器

案例分享

如何将照片组合在一起?图片照片拼接合成软件合集

南屿

照片编辑 图片拼接 照片合成

flutter+go构建的即时通讯app,ChatCraft

编程的平行世界

golang #开源项目 fluter

NFTScan 与 OneID 达成合作伙伴,支持多类型 DID 搜索!

NFT Research

NFT NFTScan

2024谷歌SEO入门指南

九凌网络

新来的一个同事,把SpringBoot参数校验玩的那叫一个优雅

快乐非自愿限量之名

Java 前端 springboot

区块链游戏解说:什么是 SecondLive

Footprint Analytics

区块链 加密货币 代币 NFT

鼠标自动点击工具 RapidClick for Mac激活最新版

南屿

Mac软件 RapidClick破解版

Total Video Converter Pro超级转霸 Mac视频转换软件 v5.1.0下载

南屿

大模型开发:从数据挖掘到智能应用

百度开发者中心

人工智能 大数据 大模型

VUE3子表格嵌套分页查询互相干扰的问题解决

EquatorCoco

前端 前端开发 Vue3

秒级响应,显著增效:明日控股携手奇点云,打造大宗贸易的数据中台标杆

奇点云

数据中台 数据资产 奇点云 明日控股

一次编写,多次利用:提高 API 构建效率的技巧

Apifox

前端 后端 开发工具 Apifox API

iOS App审核状态和审核时间管理指南

软件测试学习笔记丨JMeter_实现分组并发

测试人

软件测试

Mac好用的多窗格文件管理器QSpace Pro v4.0.4中文版

南屿

SpringBoot实现动态数据源配置

不在线第一只蜗牛

Java 后端 springboot

鸿蒙5.0发布时间已定!移动开发加速器往何处寻找?

Geek_2305a8

在 Windows 平台下安装与配置 MySQL 5.7.36

小魏写代码

小程序技术实践:如何快速开发适配鸿蒙的App

Geek_2305a8

传统开发与低代码/无代码开发的区别

这我可不懂

软件开发 低代码 JNPF

人工智能:测试开发的新宠儿

测试人

软件测试

看 TensorFlow 如何从 AI 工具变身 AI 产品_AI&大模型_才云科技_InfoQ精选文章