NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

Cloudera 果然向云出手了!新机器学习服务采用云原生路径!

  • 2018-12-24
  • 本文字数:1157 字

    阅读完需:约 4 分钟

Cloudera果然向云出手了!新机器学习服务采用云原生路径!

今年 10 月份,Cloudera 宣布与 Hortonworks 合并,这两家 Hadoop 领域的头部厂商为了抗住主流云供应商亚马逊、微软和谷歌的压力不得不走到一起,根据当时的报道,双方之后会将重心转移到云上。在预计与 Hortonworks 合并之前的最后一份季度报告中,Cloudera 终于向云平台出手,公开 DSW 的全新云原生预览版并附带原生机器学习服务 Cloudera ML,这是 Cloudera 的首个百分百 Kubernetes 产品。


Cloudera 认为市场的一个重要趋势是迁移到云端,虽然只有大约 25-30%的 Cloudera 基础服务在云中运行工作负载,但云采用的趋势是明确无误的。Ovum 预测,明年将有一半新大数据服务在云上运行;第二个趋势是 AI,更具体地说是机器学习。Cloudera 最初发布 DSW 就是为了构建、更改和部署数据科学模型,只是最初的 DSW 没有云端版本。


传统意义上,机器学习服务通常运行在 Hadoop 之上,但 Apache Hadoop 社区已着手将 Hadoop 与 HDFS 分离,以便云对象存储也可成为一流公民。由于 Hadoop 不再是运行大数据或机器学习的唯一场所,所以 Cloudera ML 无论是在 Kubernetes 集群、本地还是公有云上运行都可以。


考虑到 Databricks(适用于 Spark),Amazon SageMaker,Azure 机器学习和 Google Cloud AutoML 等服务早已大规模推广,Cloudera 现在推出该服务也是有些晚。Cloudera ML 通过基于 Kubernetes 的新架构运行,该架构绕过了内部部署 Hadoop 集群时的资源调度工具 Yarn。需要说明的是,这并不能取代在 Hadoop 和 YARN 上运行现有 DSW 的方式,只是提供了另一个在 Kubernetes 环境中运行的版本。


这不是 Cloudera 第一次支持数据科学或 ML 工作的容器,通过使用容器,Cloudera 可以打包物理部署所需的相互依赖性。鉴于最初的 DSW 针对运行 Hadoop 集群的用户,因此云原生版本同样如此,其实在 YARN 上运行 Spark 也可适应相同的部署,但随着 Kubernetes 成为云原生计算的事实标准,如果 Cloudera 真的想向云下手必须接受 Kubernetes,而不是 Yarn。


Cloudera ML 目前处于有限的预览状态,且不对所有人开放预览版本,支持访问云对象存储、HDFS 和外部数据库中的数据,部署在公有云中或最终通过 OpenShift 部署在私有云中均可。


显然,Cloudera 还将继续支持内部部署的大数据服务,毕竟这是当前服务的核心。作为一个向云计算扩展的内部部署供应商,Cloudera 将通过类似的混合支持开始,并逐渐向云平台过渡。支持混合就意味着添加云原生选项,数据仓库等其他工作也可能从运行 Kubernetes 集群中受益。


这就不禁激起用户对 Hadoop 问题的讨论,其实 Apache 社区也在努力让 Hadoop 平台更加适合云平台,从分离存储到容纳容器化工作负载,这些都需要一定时间才可以完成。一旦你用云对象存储替代 HDFS,用 Spark 替换 MapReduce,也没有什么是无法在云平台上运行的,这就是云对多种类型工作负载的管理和支持。


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2018-12-24 09:391711
用户头像
赵钰莹 InfoQ 主编

发布了 874 篇内容, 共 604.8 次阅读, 收获喜欢 2671 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

【618备战巡礼】“三高”之第一高--如何打造高可用系统 | 京东云技术团队

京东科技开发者

高可用 集群 高可用架构 618 企业号 6 月 PK 榜

flutter系列之:做一个会飞的菜单

程序那些事

flutter 架构 程序那些事

直播app源码开发的稳定控制知识

山东布谷科技

软件 App 开发 搭建平台 直播app系统

凝聚全球顶尖力量,助力开源行业发展 | 2023开放原子全球开源峰会开幕式暨高峰论坛亮点抢先看!

开放原子开源基金会

开源

只见新人笑,不见旧人哭 ChatGPT淘汰了多少产品?快来了解!

加入高科技仿生人

人工智能 AI 低代码 ChatGPT

#架构实战营# 模块1 作业

Zz

架构实战营 学生管理系统架构

腾讯董志强出席全国信安标委“标准周”:数字化转型需要高安全等级架构

腾讯安全云鼎实验室

云安全 企业安全 安全标准

响应式编程的复杂度和简化

阿里技术

响应式编程

云图说|ModelArts开发环境,让AI开发、探索、教学更简单

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 6 月 PK 榜

电动车厂家会生产制造共享电动车吗?

共享电单车厂家

共享电动车厂家 共享电单车生产 本铯电动车厂家 电动车生产厂家

“AI Earth”人工智能创新挑战赛:助力精准气象和海洋预测Baseline[1]、NetCDF4使用教学、Xarray 使用教学,针对气象领域.nc文件读取处理

汀丶人工智能

人工智能 数据挖掘 机器学习 深度学习 6 月 优质更文活动

“AI Earth”人工智能创新挑战赛:助力精准气象和海洋预测Baseline[2]:数据探索性分析(温度风场可视化)、CNN+LSTM模型建模

汀丶人工智能

人工智能 数据挖掘 机器学习 LSTM RNN回归 6 月 优质更文活动

“AI Earth”人工智能创新挑战赛:助力精准气象和海洋预测Baseline[3]:TCNN+RNN模型、SA-ConvLSTM模型

汀丶人工智能

人工智能 数据挖掘 机器学习 LSTM 6 月 优质更文活动

浅谈ByteHouse Projection优化实践

字节跳动数据平台

OLAP Clickhouse bytehouse

ChatGPT与软件架构(5) - 网络安全

俞凡

人工智能 架构 网络安全 ChatGPT

BH1750 传感器实战教学 —— 硬件设计篇

矜辰所致

传感器 硬件设计实战 光照传感器 6 月 优质更文活动

基于 prefetch 的 H5 离线包方案 | 京东云技术团队

京东科技开发者

ios H5 andiod prefetch_related 企业号 6 月 PK 榜

20个Golang片段让我不再健忘 | 京东云技术团队

京东科技开发者

Java Go 语言 企业号 6 月 PK 榜

Springboot3 + SpringSecurity + JWT + OpenApi3 实现认证授权

京茶吉鹿

spring security springboot OpenAPI JWT

容器化部署四大优势简单说明-行云管家

行云管家

容器化 部署 IT运维 容器化部署

INFINI Easysearch 完成龙芯架构兼容性认证

极限实验室

搜索引擎 国产化 龙芯 easysearch 极限科技

学习MyBatis的异常处理机制

做梦都在改BUG

Java mybatis

时序数据库 openGemini 线下meetup · 北航站来啦,欢迎大家报名!

华为云开源

数据库 前端

DataLeap的全链路智能监控报警实践(一):常见问题

字节跳动数据平台

数据挖掘 数据分析 DataLeap 数据运维

原来kafka也有事务啊,再也不担心消息不一致了

做梦都在改BUG

Java kafka 事务

目前青岛只有一家正规等保测评机构吗?在哪里?

行云管家

青岛 等级保护 等保测评

软件测试/测试开发丨接口测试学习笔记分享

测试人

程序员 软件测试 协议 接口测试 http和https

2023秋招,Java岗最全面试攻略,吃透25个技术栈Offer拿到手软

架构师之道

java面试

干货 | Mysql binlog插件三种数据采集模式介绍

大河

MySQL 数据采集 Binlog bboss

质量内建实践的八大特质

老张

质量保障 质量内建

制作Jdk镜像

tiandizhiguai

Docker k8s 镜像

Cloudera果然向云出手了!新机器学习服务采用云原生路径!_服务革新_赵钰莹_InfoQ精选文章