【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

Cloudera 果然向云出手了!新机器学习服务采用云原生路径!

  • 2018-12-24
  • 本文字数:1157 字

    阅读完需:约 4 分钟

Cloudera果然向云出手了!新机器学习服务采用云原生路径!

今年 10 月份,Cloudera 宣布与 Hortonworks 合并,这两家 Hadoop 领域的头部厂商为了抗住主流云供应商亚马逊、微软和谷歌的压力不得不走到一起,根据当时的报道,双方之后会将重心转移到云上。在预计与 Hortonworks 合并之前的最后一份季度报告中,Cloudera 终于向云平台出手,公开 DSW 的全新云原生预览版并附带原生机器学习服务 Cloudera ML,这是 Cloudera 的首个百分百 Kubernetes 产品。


Cloudera 认为市场的一个重要趋势是迁移到云端,虽然只有大约 25-30%的 Cloudera 基础服务在云中运行工作负载,但云采用的趋势是明确无误的。Ovum 预测,明年将有一半新大数据服务在云上运行;第二个趋势是 AI,更具体地说是机器学习。Cloudera 最初发布 DSW 就是为了构建、更改和部署数据科学模型,只是最初的 DSW 没有云端版本。


传统意义上,机器学习服务通常运行在 Hadoop 之上,但 Apache Hadoop 社区已着手将 Hadoop 与 HDFS 分离,以便云对象存储也可成为一流公民。由于 Hadoop 不再是运行大数据或机器学习的唯一场所,所以 Cloudera ML 无论是在 Kubernetes 集群、本地还是公有云上运行都可以。


考虑到 Databricks(适用于 Spark),Amazon SageMaker,Azure 机器学习和 Google Cloud AutoML 等服务早已大规模推广,Cloudera 现在推出该服务也是有些晚。Cloudera ML 通过基于 Kubernetes 的新架构运行,该架构绕过了内部部署 Hadoop 集群时的资源调度工具 Yarn。需要说明的是,这并不能取代在 Hadoop 和 YARN 上运行现有 DSW 的方式,只是提供了另一个在 Kubernetes 环境中运行的版本。


这不是 Cloudera 第一次支持数据科学或 ML 工作的容器,通过使用容器,Cloudera 可以打包物理部署所需的相互依赖性。鉴于最初的 DSW 针对运行 Hadoop 集群的用户,因此云原生版本同样如此,其实在 YARN 上运行 Spark 也可适应相同的部署,但随着 Kubernetes 成为云原生计算的事实标准,如果 Cloudera 真的想向云下手必须接受 Kubernetes,而不是 Yarn。


Cloudera ML 目前处于有限的预览状态,且不对所有人开放预览版本,支持访问云对象存储、HDFS 和外部数据库中的数据,部署在公有云中或最终通过 OpenShift 部署在私有云中均可。


显然,Cloudera 还将继续支持内部部署的大数据服务,毕竟这是当前服务的核心。作为一个向云计算扩展的内部部署供应商,Cloudera 将通过类似的混合支持开始,并逐渐向云平台过渡。支持混合就意味着添加云原生选项,数据仓库等其他工作也可能从运行 Kubernetes 集群中受益。


这就不禁激起用户对 Hadoop 问题的讨论,其实 Apache 社区也在努力让 Hadoop 平台更加适合云平台,从分离存储到容纳容器化工作负载,这些都需要一定时间才可以完成。一旦你用云对象存储替代 HDFS,用 Spark 替换 MapReduce,也没有什么是无法在云平台上运行的,这就是云对多种类型工作负载的管理和支持。


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2018-12-24 09:391716
用户头像
赵钰莹 InfoQ 主编

发布了 875 篇内容, 共 607.0 次阅读, 收获喜欢 2671 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

如何挑选代理IP

Geek_ccdd7f

守护 C 盘,Python 相关库设置

北桥苏

Python conda anconda

VideoProc Converter for Mac(多功能视频处理软件) v6.1中文激活版

mac

苹果mac Windows软件 视频处理软件 VideoProc Converter

解决室内种植最大弊端的是方法—植物生长灯

电子信息发烧客

八个开源免费的低代码/无代码后端项目

高端章鱼哥

开源 低代码 无代码

万字解析XML配置映射为BeanDefinition的源码

华为云开发者联盟

spring 开发 华为云 华为云开发者联盟

以程序员的身份,教您使用API接口获取虾皮商品详情

Noah

软件测试/测试开发丨​利用人工智能ChatGPT批量生成测试数据

测试人

软件测试

python爬虫代理的渠道有哪些

Geek_ccdd7f

一图看懂华为云CodeArts Link六大特性

华为云开发者联盟

开发工具 华为云 华为云开发者联盟 华为云CodeArts

跨国企业在数据跨境传输中应该知道的五大要点

镭速

跨境数据传输 数据跨境传输

NLP技术如何为搜索引擎赋能

不在线第一只蜗牛

nlp NLP 大模型 技术 优化体系

软件测试/测试开发丨探索Python中的函数定义和调用

测试人

软件测试

动态IP代理是怎么实现的?

Geek_ccdd7f

使用 Java 枚举和自定义数据类型

这我可不懂

Java

一文解码语言模型:语言模型的原理、实战与评估

EquatorCoco

概念介绍 语言模型

轻量级前端架构之:小程序技术

Speedoooo

小程序容器 小程序技术 小程序容器技术 微前端架构 轻量级前端架构

用二维码展示产品,随时查看图文并茂的介绍

草料二维码

选购护眼台灯,全网都没有说清一个关键点!——照度均匀度

电子信息发烧客

区块链开发:区块链软件开发包装相关解析

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

代理IP按流量计费贵么?

Geek_ccdd7f

三大开源向量数据库大比拼

互联网工科生

向量数据库

中馥集团双11当日发货销售额突破1000万!

电子信息发烧客

合约交易所开发

区块链技术

数字马力面经和答案解析!社招岗

王磊

Java 面试 java面试

龙蜥社区联合浪潮信息发布《eBPF技术实践白皮书》(附下载链接)

OpenAnolis小助手

Linux 白皮书 ebpf 云栖大会 龙蜥社区

在跨境数据传输方面,如何应对跨国企业面临的挑战和风险

镭速

跨境数据传输

动作活体检测能力支持自定义扫描动作,开发者接入更高效

HMS Core

HMS Core

11月创作挑战赛开启!新奖品、新标准~

Openlab_cosmoplat

超级App的前端框架也可以足够轻量

FN0

前端框架 超级app

华为音乐枫叶音乐会,倾耳聆听心动音乐故事

最新动态

Cloudera果然向云出手了!新机器学习服务采用云原生路径!_服务革新_赵钰莹_InfoQ精选文章