高品质的音视频能力是怎样的? | Qcon 全球软件开发大会·上海站邀请函 了解详情
写点什么

Cloudera 独家回应:Hadoop 到底怎么了?

  • 2019-06-27
  • 本文字数:3084 字

    阅读完需:约 10 分钟

Cloudera独家回应:Hadoop到底怎么了?

Hadoop 太老了,很多人担心它会不会到了明天就已经过时了。


五年前,Gartner 研究总监就曾发文说 Hadoop 光环幻灭;到现在,我们看到了更多的质疑文字,认为”Hadoop气数已尽“。而这次质疑的起因是 Cloudera 和 Hortonworks 的合并,MapR 的裁员。


Cloudera 成立于 2008 年。成立以后创始人做的第一件大事,就是邀请了最初写了 Hadoop 的 Doug Cutting 大神作为首席构架师加入。早期的 Hadoop 只有 MapReduce 和 HDFS,截止 2018 年初有 26 个不同的开源项目,其中有 18 种是 Cloudera 创建的。Cloudera 可称为是圈内的一家标杆企业。InfoQ 编辑在探究”Hadoop 到底怎么了“的问题时,联系到 Cloudera 并进行了采访,我们针对采访回复做出了以下解读。


被逼走向云服务?

去年 10 月,Cloudera 宣布与 Hortonworks 合并,计划创建首个企业数据云。


Cloudera 核心 CDH 开源,靠出售数据治理和系统管理组件来获得商业盈利。Hortonworks 完全开源,靠技术支持服务盈利。依靠这些商业模式,Cloudera 的估值在顶峰时高达 41 亿美元,Hortonworks 的估值也曾超过 10 亿美元。


如今,Cloudera 网站首页以粗体字写着:“我们为任何数据提供企业数据云,从 Edge 到 AI ”(We deliver an Enterprise Data Cloud for any data, anywhere, from the Edge to AI)。我们可以清楚地看到焦点的转变:主打宣传文字不再是 Hadoop 和 CDH。


Cloudera 产品营销总监 Lakshmi Randall 表示:”每个组织的数据都是独一无二的,是可以实现货币化的宝贵资产。根据 IDC 的估计,到 2025 年,全球数据量实现高达 61%的惊人增长,总量达到 175 ZB。其中将有约一半数据存储在云端,另一半则驻留在数据中心之内”,在发展企业云的同时,“Apache Hadoop 将继续在众多企业的数据中心之内占据重要地位。“


Hadoop 发行商衰落?被逼走向云计算?但实际上走向云计算也是自然发展而来。


Cloudera 的创始人在一次访谈的时候曾提到,在创建公司时他们原本打算做的服务是类似于现在 AWS 的 Elastic MapReduce 那样的云上服务。然而很快发现这个模式太超前,所以转向了做 Hadoop 发行商的角色,但也”不想失去我们认为有用的 EMR 功能,主要是集群设置的简易性“。


在 Intel 投资 Cloudera 之后,Cloudera 首席执行官也曾在 2016 年表示希望 Intel 投入 10 亿美元来建设云服务,希望”成为真正的云服务提供商“。



Hadoop 是一项伟大的技术,本质上是一个很好的解决方案,但也不是没有缺点,就像大多数开源软件一样。特别是在以模块化方式捆绑的情况下,在数十台、数百台或数千台机器上时也具有挑战,配置、性能优化、工具选择、维护、操作和开发都需要具有深厚的专业知识才能顺利运行。作为一项技术,它也在与一些主要云厂商竞争。云计算也在吞噬本地化部署市场。但通常云提供商只是选择了一个开源社区版本的 Hadoop,产品后续在部署中的高可用性和安全性等问题,也还是需要客户自己去解决。从这点出发,Cloudera 认为现在”自己是企业数据云这一新兴市场领域中的领导者“。


Lakshmi Randall 表示 Cloudera 的企业数据云的有以下的功能特征:


  1. 立足混合及多云环境,对处于任意位置的数据进行控制、分析与试验。

  2. 从边缘到 AI 全面分析——利用实时数据流处理、数据仓库、数据科学以及迭代化机器学习等技术,以安全方式对任意位置的大规模数据进行跨共享数据分析。

  3. 安全与治理——以访问政策与复杂模式为基础建立一套通用型安全模型、角色与属性,立足任意云环境实现血统与起源控制。


公有云计算的出现,同时也让存储变得更加廉价。有人认为“AWS 的 S3 替代了 HDFS,K8S 替代了 Yarn”。在回答”未来 Hadoop 的几大组件是否会被公有云上的其他产品全面替代“的时候,Lakshmi Randall 表示:”我们的客户希望能够在任意位置使用任何类型的数据,其中包括以 Amazon S3 为代表的云对象存储、Kubernetes 部署的容器,或者以 HDFS 为代表的传统数据中心存储方案。我们认为,企业将(实际上也正在)采用包含上述全部环境的混合策略,而且这种趋势在未来仍将保持下去。“其实也在 Hadoop 3.0 里,开源维护者为这个功能集做了一些大的补充,比如 YARN 现在支持 Docker 容器、TensorFlow 的 GPU 调度等一些更高级的调度功能,也为 AWS S3 提供本机支持。


谁是竞争对手?

因为 Cloudera 和 Hortonworks、MapR 的变动,有人认为Hadoop领头羊已经溃不成军,但大数据领域的,例如 MongoDB 数据库产品受欢迎程度一直在增长,MongoDB 现在的受欢迎指数大约是 Oracle 和 MySQL 的三分之一,而五年前只有十分之一,背后企业收入已经跃升了 78%。同样,Elasticsearch 分布式搜索和分析引擎背后的公司 Elastic 在去年员工数量翻了一番,最近一个季度的收入增长了 70%。 MongoDB 和 Elasticsearch 这样的技术挑战了 Hadoop 吗?


Lakshmi Randall 回答说:“最苛刻的业务用例需要采用多种分析工具,包括实时流处理、数据仓库、数据科学以及跨共享数据的迭代机器学习等等。用于支持这些用例的数据库往往拥有多种表现形式,而且广泛存在于各类位置之上,涵盖公有云、内部部署以及边缘环境。Cloudera 客户能够借助我们的平台立足任意位置对任何数据运行多功能分析,从而获取可为其业务提供可行性支持的重要洞察见解。虽然确实存在竞争,但这种竞争只涉及我们当前所服务的分析市场中的一小部分。”


就此问题,MongoDB 社区专家唐建法也解释到:“本质上是离线处理和在线处理两个不同的方向。Hadoop 的底层存储是基于无索引的 HDFS,核心应用场景是对海量结构化、非结构化数据的永久存储和离线分析,例如客户肖像、流失度分析、日志分析、商业智能等。而 MongoDB 和 Elastic 的核心场景是实时交互,通常用于人机交互场景,例如电商移动应用,其特征是响应时间一般是毫秒级到秒级。”


Elastic 中文社区专家杨振涛也给我们解释说:“从使用场景来看,两者是合作关系,而不是竞争关系。但是,对于小应用使用者,可能混用,从这个角度看是竞争关系。不过不是重点,重点在于合作补充”,“Elasticsearch 开箱即用的特点让很多中小团队甚至大企业里相对独立的业务团队更加易于采纳,来满足比较基础的即席查询需求、在线业务检索需求甚至轻量的 BI 需求,这在功能上确实与 Hadoop 生态有所重合,造成了一定程度的竞争。但 Elasticsearch 以及 Elastic Stack 并不是针对 Hadoop 生态的,其自身的典型应用参考官方介绍也是集中在 Logging、Metrics、Site Search、Security Analytics、APM 、App Search 以及 Google Site Search 替代方案这些方面,可以看到 Elastic Stack 旨在提供端到端的完整解决方案,而 Hadoop 生态更多是定位为平台,其上衍生出了非常多的其他产品。这是二者最大的不同,即便它们在功能上有所重合”。


专家的解释也一定程度论证了 Lakshmi Randall 在分析“竞争对手”上的话:“随着企业逐步实现数据与分析层面的变革性进步,特别是机器学习领域的迅猛发展,开源生态系统在过去十年当中发生了巨大的变化。Apache Hadoop 将继续在众多企业的数据中心之内占据重要地位;而且由于其属于开源项目,我们能够找到大量互补性产品,例如商务智能、数据集成与数据仓库工具等等。因此,我认为 Hadoop 并没有多少真正的竞争对手,而拥有大量补充性解决方案。


Cloudera 的未来规划

谈及未来的产品规划/发展路线图,Lakshmi Randall 表示:”今年晚些时候,我们将发布名为 Cloudera Data Platform 的全新云服务。这款企业级数据云产品将包含用于数据仓库、机器学习、数据流摄取以及数据库操作的一系列云原生服务。它也将成为第一款具有统一数据目录的多功能云产品,能够通过单一管理平台实现统一的安全与治理能力保障。“


2019-06-27 08:007032
用户头像
Tina InfoQ高级编辑

发布了 765 篇内容, 共 434.7 次阅读, 收获喜欢 2600 次。

关注

评论

发布
暂无评论
发现更多内容

「前端CI/CD系列」第三篇:如何用建木CI构建前端项目并部署到CDN

Jianmu

开源 前端 CDN 七牛云 建木CI

DPDK uio 分析 丨DPDK的优势及学习总结

Linux服务器开发

Linux服务器开发 DPDK Linux后台开发 高性能网络 网络虚拟化

数字孪生:如何撑起一个万亿市场的产业变革?

知心宝贝

行业资讯 数字孪生 冬奥 3月月更

英特尔Sierra Forest,市场最需要的能效核至强处理器

科技新消息

【愚公系列】2022年03月 Docker容器 Windows11安装Docker Desktop

愚公搬代码

3月月更

基于冬奥示范效应,数字孪生将助力建筑运维和集会安全运营

易观分析

数字孪生

GDP Streaming RPC 设计

百度Geek说

后端 RPC Go 语言

直播预告 | PolarDB-X 动手实践系列——如何在 PolarDB-X 中优化慢 SQL

阿里云数据库开源

数据库 大数据 阿里云 开源 polarDB

专注自主研发,加速大数据基础软件国产化进程

星环科技

数据库 大数据 基础软件

华为被卡脖子,到底卡的是什么?

坚果

python方法——defaultdict详解

Wjq

Python 字典 3月程序媛福利 3月月更 defaultdict

对容器在野安全问题的观测和分析

腾讯安全云鼎实验室

网络安全 容器安全 在野攻击

在华外企高管谈政府工作报告:共享发展成就 未来机遇可期

科技新消息

把家电科技产出摆出来!三家实力一目了然

脑极体

两天两夜,1M图片优化到100kb!

沉默王二

Java

「国产替代」,真的是中国SaaS的发展路径吗?

ToB行业头条

技术平台&应用开发专题月 | 如何打造强大的K8S集群

用友BIP

用友 用友iuap

适用于企业的销售自动化CRM系统

低代码小观

销售管理 CRM CRM系统 客户关系管理系统 企业管理软件

医疗数字化,星环科技ArgoDB+KunDB统一分布式数据库解决方案来了

星环科技

数据库 医疗安全

2021年第4季度规模达1381.8亿元!跨境电商结合酒店场景将成亮点

易观分析

跨境电商

2022官方文档部署MAVEN最新最全

北极的大企鹅

中间件 环境安装 部署与维护

Flink 流处理在中信建投证券的实践与应用

Apache Flink

大数据 flink 开源 编程 实时计算

一日为期,极行千里 ——「企业级零代码黑客马拉松」正式启动报名

明道云

低代码 零代码 企业 黑客马拉松

重学设计模式——你真的面向对象了吗?

黄林晴

设计模式

网络安全kali web安全 Kali之msf简单的漏洞利用

学神来啦

网络安全 渗透测试 WEB安全 kali kali Linux

电商秒杀系统

tony

「架构实战营」

金融数据查询增速三倍,服务器成本减半,海尔云链的 OLAP 引擎选型之路

StarRocks

数据库 数据分析 OLAP StarRocks

堪比JMeter的.Net压测工具 - Crank 入门篇

MASA技术团队

C# .net 微软 测试 压测

基于 Apache ShardingSphere 构建高可用分布式数据库

SphereEx

Apache 开源 分布式 ShardingSphere SphereEx

【案例】替代进口数仓,星环科技助力北京银行建设新一代大数据平台

星环科技

数据库

教你如何搭建一个骗子举报/信息查询的平台

H

搭建平台 网络安全信息安全、

Cloudera独家回应:Hadoop到底怎么了?_大数据_Tina_InfoQ精选文章