写点什么

Hadoop 的“遗产”

  • 2021-05-08
  • 本文字数:2369 字

    阅读完需:约 8 分钟

Hadoop 的“遗产”

宣布“Hadoop 已死”已成为一种时尚。但,Hadoop 让企业失去了对大数据的恐惧。Hadoop 反过来又释放出一种创新的良性循环,为我们今天所知的云分析和人工智能服务带来了大量市场。


最近 ZDNet 的 Big on Data 专栏撰稿人 Andrew Brust 发表的一篇关于Hadoop 项目“春季大扫除”的文章阅读数爆表,显然触动了人们的神经。


迄今为止,Apache Hadoop项目系列不再像十年前那样是大数据的中心,事实上,有关Hadoop 已死的论调已经流传很久,以至于听起来更像是“弗朗西斯科・弗朗哥最后还是死了”这则老标语的最新版本。(译注:弗朗西斯科・弗朗哥,Francisco Franco,西班牙国家元首、最高统帅、大独裁者,1975 年 9 月 27 日被宣告政治死亡,1975 年 11 月 20 日,死于帕金森症。)


如果你想进一步了解情况,看看招聘信息就知道了。最近,Terence Shin在上个月发布的一项调查(如下图所示),通过网络搜索整理了超过 15000 个数据科学家的工作清单,清单显示,雇主对 Hadoop 技能的需求正在急剧下降,C++、Hive 和一些遗留的专用语言也在其中。顺便说一下,对了,Spark 和 Java 也同样在清单中。如果向数据工程师提出同样的问题,结果是否会有所不同?


解决方案“Hadoop”被认为是 2014 年的事情。对于大数据来说,这个世界也在不断发展。大数据之所以被贴上这样的标签,是因为在那个时候,很少有人会对多达 TB 或 PB 级的数据进行梳理,对非关系数据进行分析的能力也有限。


如今,多模型数据库已经变得越来越普遍,而大多数关系数据仓库(Data Warehouse)也增加了解析 JSON 数据和叠加图形数据视图的功能。在云存储中直接查询数据和 / 或从数据仓库进行联合查询的功能也已变得司空见惯。


正如 Andrew 所说,“春季大扫除”旨在“清除蜘蛛网”。和传统的观念相反,Hadoop 并没有死亡。在Cloudera Data Platform(CDP)中,Hadoop 生态系统的一些核心项目仍在继续,这一产品非常有活力。因为幸存下来的是 CDP 之前还没有出现的打包平台,所以我们不再称之为 Hadoop 了。现在,动物园里的动物都安全地关进了笼子。



用几个甚至更多的独立开源项目来组建自己的集群的想法已经过时了。既然有其他可供选择的方案(我们不仅仅是在讨论 CDP),为什么还要浪费时间手工实现 ApacheMapReduceHiveRanger或者Atlas呢?至少在过去 30 年里,这一直是数据库领域的常态;当你购买 Oracle 时,你不必分别安装查询优化器和存储引擎。为什么我们用来调用 Hadoop 的数据平台会有所不同呢?


到 2020 年,对于新的项目,你的组织可能计划实施云服务,而非安装打包的软件。尽管推动云计算最初是为了转移成本,但现在更多是关于公共控制平面下的操作简化和敏捷性。


现在,有多种方法可以分析过去称为“三个 V”(Volum、Velocity、Variety,即体积、速度、种类)的数据。如今,你可以随时访问位于云对象存储中的数据,也就是事实上的数据湖(Data Lake)。


通过使用Amazon Athena等服务进行特别查询,可以实现这一点;在大多数云数据仓库服务中利用可选的联合查询功能;使用Databricks等专用服务或Azure Synapse Analytics等云数据仓库服务对数据运行Spark。由于数据仓库和数据湖之间的界限越来越模糊,现在很多人采用了模糊术语数据湖屋(Data Dakehouses),或者整合跨数据仓库和数据湖的访问,或者把数据湖变成 80% 的数据仓库。


而且我们甚至还没有涉及到人工智能和机器学习。就像早期的 Hadoop 只属于数据科学家(在数据工程师的帮助下)一样,最初机器学习和更广泛的人工智能也是如此。如今,数据科学家拥有许多工具和框架来管理他们所创建模型的生命周期。对于公民数据科学家而言,AutoML 服务使构建机器学习模型变得触手可及,而云数据仓库正在增加它自己的预打包机器学习模型,可以通过 SQL 命令来触发。


可能人们很容易忘记,仅仅在十年前,这一切似乎还是不可能发生的事情。谷歌的创新研究推动了这一领域的发展。借助谷歌文件系统,这家互联网巨头设计出了一个仅限于附加的文件系统,利用廉价磁盘的优势,突破了传统存储网络的限制。通过MapReduce,谷歌破解了这一密码,它在商品硬件上实现了几乎线性的可扩展性。在当时广泛采用的扩展性 SMP 架构中,很难做到这一点。


谷歌发表了这些论文,这对Doug CuttingMike Cafarella来说是件好事,他们当时正在开发一个能够索引至少 10 亿页的搜索引擎项目,发现了一条开源之路,可以大幅降低实现这样一个系统的成本。后来,社区的其他成员接过了 Cutting 和 Cafarella 的工作,例如,Facebook 开发了Hive,它提供了一种类似于 SQL 的编程语言,用来在 PB 级别梳理 PB 级各种数据集。


如今,随着经典 Hadoop 项目的采用率的下降,人们很容易忘记,Hadoop 项目的发现带来了一个良性循环,创新吞噬了年轻一代。在 Hadoop 出现的时候,数据就变得如此庞大,以至于我们不得不对数据进行计算。


随着云原生架构的出现,廉价、大量的带宽使之成为可能:再一次将更多的存储层、计算层和数据层分开。并不是说这两种方法都是正确或错误的,而是说它们适用于当时设计时就已存在的技术。这就是科技创新的周期性本质。


从 Hadoop 学到的经验突破了规模化处理的限制,从而促生了一个循环,很多旧的假设,比如 GPU 严格用于图形处理,都被抛在了一边。


Hadoop 的“遗产”不仅在于它所催生的创新良性循环,还在于它使企业能够克服对数据处理的恐惧,而且还是海量数据。

作者介绍:

Tony Baer,dbInsight LLC 的负责人,负责大数据和数据管理以及一些系统工程。领导 Ovum 的大数据研究领域,从事该行业的 25 年中,研究了数据集成、软件和数据架构、中间件和应用开发等问题。拥有多学科背景,涉及企业软件的不同层次。与他人合作出版了一些关于 Java 和 .NET 框架的早期书籍,并在多家杂志社发表过许多文章。


原文链接:


https://www.zdnet.com/article/hadoops-legacy-no-more-fear-of-data/#ftag=RSSbaffb68


2021-05-08 09:533345
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 543.6 次阅读, 收获喜欢 1978 次。

关注

评论

发布
暂无评论
发现更多内容

SpringBoot项目就连创建目录都让人抓狂

做梦都在改BUG

Java Spring Boot 框架

支付宝小程序-MQTT模拟器体验阿里云IoT开发——设备接入类

阿里云AIoT

物联网

VPN客户端Shimo mac版使用教程:如何创建新的 VPN 帐户?

Rose

vpn mac系统 Shimo下载 Shimo教程

ElasticSearch必知必会-Reindex重建索引

京东科技开发者

elasticsearch 索引 ES 集群 企业号 3 月 PK 榜

业务架构那点事(2)如何通过高层访谈获取企业战略信息?

涛哥 数字产品和业务架构

业务架构 访谈

如何在 macOS 中互换 Control 和 Command 键

理理

mac教程 Control键 Command 键

通过Flutter实现一个能在多端运行的扫雷游戏

编程的平行世界

flutter 前端 游戏 移动端 扫雷

React数字滚动组件 numbers-scroll

观纵科技

JavaScript 前端监控 React

Acrobat Pro DC 2023发布,有哪些新的改进?

Rose

adobe pdf编辑器 Acrobat Pro DC 2023

面面俱到!四面阿里拿offer后,才发现师哥给的面试笔记有多强大

做梦都在改BUG

Java java面试 Java八股文 Java面试题 Java面试八股文

K8S部署应用详解

tiandizhiguai

从稀疏表征出发、召回方向的前沿探索

百度Geek说

召回 预训练模型 稀疏矩阵 企业号 3 月 PK 榜

喜讯|百度入选“移动互联网APP产品安全漏洞治理”优秀案例

百度安全

使用抓包工具Wireshark分析IoT设备网络行为——设备管理运维类

阿里云AIoT

网络协议 物联网 网络性能优化

可插拔组件设计机制—SPI

京东科技开发者

spi Java】 JavaSPI 企业号 3 月 PK 榜

交易系统之数据库弱依赖解决方案

京东科技开发者

数据库 高并发 灾备 db 企业号 3 月 PK 榜

Mac教程:如何开启任何来源选项

理理

Mac 苹果电脑 任何来源

CleanMyMac4.20专业的mac清理软件

茶色酒

CleanMyMac4.20

设备使用HTTPS协议接入IoT物联网平台——设备接入类

阿里云AIoT

直播教学!20 分钟开发可视化「智能门铃」丨RTE 开发实战课 • 第一期

声网

最佳实践 直播 RTC 声网

亿级用户中心的设计与实践

做梦都在改BUG

Java 服务架构 亿级流量 用户中心

真香!阿里最新出品Java面试核心讲(终极版),Github已星标50K

程序员小毕

Java 程序员 面试 后端 架构师

跨平台开发成为移动应用程序开发趋势

没有用户名丶

真的有那么丝滑吗?面试阿里(Java岗)从投简历到面试再到入职

做梦都在改BUG

Java java面试 Java八股文 Java面试题 Java面试八股文

企业不想走弯路,不如试试低代码开发

引迈信息

低代码 低代码开发 JNPF

Last Week in Milvus

Zilliz

Milvus Zilliz 向量数据库

OPPO、京东云 loT 项目数据架构改造,数据处理痛点这样破解

TDengine

tdengine 数据架构 时序数据库 用户案例 loT

解决 Parallels Desktop 虚拟机不能连网的问题

理理

Parallels Desktop 虚拟机 PD虚拟机不能联网 PD常见问题

订阅标识符与订阅选项--MQTT 5.0新特性

EMQ映云科技

物联网 IoT mqtt 订阅 企业号 3 月 PK 榜

AntDB数据库助力中国移动华南中心计费项目

亚信AntDB数据库

AntDB 国产数据库 aisware antdb AntDB数据库 企业号 3 月 PK 榜

金三突击面试,收获6个Offer,原来面试还能这么简单!

做梦都在改BUG

Java java面试 Java八股文 Java面试题 Java面试八股文

Hadoop 的“遗产”_AI&大模型_Tony Baer_InfoQ精选文章