【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

为何大数据很多,能赚钱的公司却很少?

  • 2020-03-06
  • 本文字数:2310 字

    阅读完需:约 8 分钟

为何大数据很多,能赚钱的公司却很少?

都说大数据分分钟能帮你多赚 10 倍——这话不假。


在这个快速发展的智能硬件时代,困扰应用开发者的一个重要问题就是如何在功率、覆盖范围、传输速率和成本之间找到那个微妙的平衡点。而企业组织利用相关数据和分析可以帮助它们降低成本、提高效率、开发新产品、做出更明智的业务决策。


尽管对于许多企业来说,大数据早已成为信息管理的基础,但他们所沉淀的数据资产有多少能够产生增值,却很难有所衡量。


如果仅停留在收集数据和出具分析报表,那么随着数据种类的不断变化,当中大量的碎片化、非结构化数据,会令企业在营销和运营过程中很难有效从中提炼价值。


这就是为何大数据很多,能赚钱的公司却很少。


从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构,依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。


但是在面对大量庞杂及非机构化的数据面前,如何快速提升分析和训练效率就成为了企业必需去解决的问题。


为此,谷歌深度学习框架 TensorFlow 自 2015 年 11 月开源以来就受到了学术界和工业界的广泛关注。然而要将 TensorFlow 真正地应用于生产环境中仍然存在很大的挑战。


为了进一步降低 TensorFlow 的使用门槛,才云(Caicloud)早在 2016 年 4 月即发布国内首个基于容器集群的分布式深度学习系统,并于 2017 年 2 月 12 日发布产品 TensorFlow as a Service(TaaS) v1.0.0 商用版。


TaaS 包括支持 CPU 和 GPU 的分布式 TensorFlow 模型训练平台和模型托管平台。通过将 TensorFlow 与谷歌开源的容器云平台管理工具 Kubernetes 结合,才云提供的 TaaS 服务解决了 TensorFlow 在使用中学习成本高、管理难、监控难、上线难等问题,旨在帮助企业更快、更容易地体验和应用最新深度学习技术。


目前,才云 TaaS 私有云已在部分金融、能源及电商行业落地并帮助企业解决问题,并已开启公有云内测(内测报名链接:http://caicloud.mikecrm.com/9nLwGPi。更多详细信息,请点击《国内首个TaaS 公有云开放限量内测,全新性能等你来战!》了解)。


正是由于 Kubernetes 和 TensorFlow 的完美结合,才云的 TaaS 一经发布就受到美国 CNCF K8S 上游高度重视,并受邀参加了今年在柏林举办的 KubeCon 大会。无独有偶,才云将 AI 融入云上的视角也出现在由特斯拉公司创始人 Elon Musk 和科技孵化器 Y Combinator 的掌门人 Sam Altman 创立的非营利创业公司 OpenAI 的演讲中。


这家据称有 10 亿美金注资背景的公司,一直以将人工智能红利带给人类社会为使命。他们于 2016 年 4 月对外发布了人工智能一款用于研发和比较强化学习算法的工具包 OpenAI Gym,从而成功打破了谷歌、Facebook 等巨头霸占 AI 领域的格局。



Musk 认为,与邪恶人工智能斗争的最好方式不是限制人工智能的接入和使用,而是更广泛地推广它。


就是这样一家囊括世界顶尖人工智能领域人才的公司,在谈到 GPU 对于涉及大型神经网络的学习问题时也表达了自己的明确看法。那就是“GPU 正在逐渐变得不可或缺。我们将会使用 GPU 来为大规模任务训练神经网络,并且我们也预期我们的许多用户会这么做。”


但是,传统的分布式 TensorFlow 没有把 CPU 跟 GPU 进行虚拟化。只能直接使用物理 GPU 资源,无法让利用率最大化。在单机环境下,即使使用目前最先进的 GPU 都无法满足其计算量的要求。而在集群环境下,TensorFlow 存在高门槛、难配置、难管理等问题。


难能可贵的是,作为一家中国初创公司。本次 KubeCon 上,才云首席大数据科学家郑泽宇和才云高级云开源工程师赵慧智通过《通过 Kubernetes 搭建可支持 GPU 的 TensorFlow 集群》演讲(更多详情,请点击《柏林 KubeCon 直击| 看 TensorFlow 如何从 AI 工具变身 AI 产品》),很好地解答了目前困扰深度学习发展的技术难题,让世界看到了中国企业的贡献与价值。



才云技术专家(左二:赵慧智,右一:郑泽宇)与 OpenAI 及 Google GCE Manager 分别讨论了如何部署 TensorFlow on Kubernetes 及其技术点实现方式和 GPU 在 GCE 中的 upstream 现状和后续研发工作。


在本次 KubeCon 上,已经有很多 AI 厂商在思考如何将 TensorFlow 比较好的运行在 Kubernetes 上了。 才云认为在 GPU 支持上需要去更多考虑的是支持的 GPU 类型, GPU 如何暴露给 container 内部的程序,以及多 GPU 调度和分配支持与性能调优。


目前 GPU 在 Kubernetes 中的支持不是很好,所以很多厂商在用的时候都是会选择比较 Trick 的方式。例如将不同 GPU 的类型通过 Kubernetes 的 Label 的方式来进行区分和选择,并将 GPU 通过 Privilege 或者单一的 GPU 支持配置(在 1.5 中已经可以做到一个机器上单个 GPU 支持)来达到让 TensorFlow 的模型训练加速的优化。


随着 1.6 的 Release,GPU 最新的 Alpha 版本中可以支持多个 GPU 调度、 GPU 设备自发现、多 GPU 指定等功能。而这将为有 GPU 需求的厂商提供非常大的好处,不仅在部署层面简化了操作,同时在使用和基于 Container 的隔离上提供了更好的支持,尤其是在 AI 领域。


从大数据到 AI,从工具到服务,并推动移动互联网的再次变革,是通过机器将沉淀数据进行深度有效学习的产物。而这其中,GPU 的有效调度对深度学习的影响可谓是加速引擎一般,掌握这一点,方可快速分析,准确决策并实现商业价值。


此刻,面对汹涌而来繁复冗杂的海量数据,有多少公司能抓住机遇,通过数据分析跟深度学习在 AI 新时代突出重围,成为领军者呢?随着谷歌深度学习框架 TensorFlow 的横空出世,能扫平门槛,将分布式深度学习系统轻松应用于企业生产环境中的企业,必然也有着快人一步的优势,引领行业。


本文转载自才云 Caicloud 公众号。


原文链接:https://mp.weixin.qq.com/s/hoYppQiEooVQ1yKvkSkVAw


2020-03-06 21:06720

评论

发布
暂无评论
发现更多内容

局域网与Kubernetes内部网络如何互通

不焦躁的程序员

k8s

java8 通过反射执行接口的default方法

java易二三

Java 程序员 计算机

精细解析中文公司名称:智能分词工具助力地名、品牌名、行业词和后缀提取

汀丶人工智能

人工智能 自然语言处理 信息抽取

Tomcat使用教程。

百度搜索:蓝易云

云计算 tomcat Linux 运维 Java Servlet

从 Zebec Protocol 长期布局看,ZBC 通证的潜在应用场景

大瞿科技

网上正规实体平台现场同步yscy898

新百盛娱乐yscy898

上线规则 微咨询 Fil币现在进场合适吗? 简单查询

大型模型的重要基石与洞察力之源之文本数据

来自四九城儿

深入浅出java Semaphore

java易二三

程序员 jdk 计算机 科技

使用 Spring 实现控制反转和依赖注入

小万哥

Java spring 云原生 后端 SpringCloud

《MySQL——从删库到跑路》阿里架构师分享删库跑路救命策略

java易二三

Java 程序员 计算机

数智双擎,算融未来”,2023东湖算力与大数据创新大会圆满召开

彭飞

SpringBoot3数据库集成

Java 架构 springboot SpringBoot3

柏睿向量数据库Rapids VectorDB赋能企业级大模型构建及智能应用

新消费日报

统一门户|WorkPlus整合内部应用,构筑企业统一的智能工作入口

WorkPlus

《企业家》杂志封面人物丨王文京:数智化助企业“基因迭代”

用友BIP

C++实现一键关闭桌面

二哈侠

Similarities:精准相似度计算与语义匹配搜索工具包,多维度实现多种算法,覆盖文本、图像等领域,支持文搜、图搜文、图搜图匹配搜索

汀丶人工智能

人工智能 自然语言处理 语义搜索 语义搜索系统 文本匹配

网上正规实体现场同步平台

新百盛娱乐yscy898

全新 – Amazon EC2 M1 Mac 实例

亚马逊云科技 (Amazon Web Services)

Amazon EC2

Mac前端开发神器 Sublime Text 4中文版

晴雯哥

SecureCRT Mac版:强大的终端仿真与会话管理

晴雯哥

Ubuntu 20.04 安装 Carla详细教程。

百度搜索:蓝易云

云计算 Linux 运维 Carla Simulator

Redis Sentinel 初步设计方案

艾瑾行

架构训练营

成为大主播的必懂知识:直播源码推流

山东布谷网络科技

直播推流 直播源码

绝了!学编程的还有不知道的吗?这个Java开发工具免费了

SoFlu软件机器人

开发者工具 开发工具 java\ 智能开发

构建高性能的MongoDB数据迁移工具:Java的开发实践

这我可不懂

Java mongodb 开发框架

Presto 内存参数设置建议

冰心的小屋

presto memory query.max-memory presto 内存

网络安全作业

大肚皮狒狒

VMWare Fusion Pro中文版 macOS 强大虚拟机软件 (完美兼容M1M2/支持win10win11 )

晴雯哥

山东布谷科技直播软件开发WebRTC技术:建立实时通信优质平台

山东布谷科技

软件开发 WebRTC 实时通信 源码搭建 直播软件开发

第二届广州·琶洲算法大赛报名截止 3300多支队伍将展开激烈角逐

新消费日报

为何大数据很多,能赚钱的公司却很少?_大数据_才云科技_InfoQ精选文章