硬核干货——《中小企业 AI 实战指南》免费下载! 了解详情
写点什么

Hadoop 的“遗产”

  • 2021-05-08
  • 本文字数:2369 字

    阅读完需:约 8 分钟

Hadoop 的“遗产”

宣布“Hadoop 已死”已成为一种时尚。但,Hadoop 让企业失去了对大数据的恐惧。Hadoop 反过来又释放出一种创新的良性循环,为我们今天所知的云分析和人工智能服务带来了大量市场。


最近 ZDNet 的 Big on Data 专栏撰稿人 Andrew Brust 发表的一篇关于Hadoop 项目“春季大扫除”的文章阅读数爆表,显然触动了人们的神经。


迄今为止,Apache Hadoop项目系列不再像十年前那样是大数据的中心,事实上,有关Hadoop 已死的论调已经流传很久,以至于听起来更像是“弗朗西斯科・弗朗哥最后还是死了”这则老标语的最新版本。(译注:弗朗西斯科・弗朗哥,Francisco Franco,西班牙国家元首、最高统帅、大独裁者,1975 年 9 月 27 日被宣告政治死亡,1975 年 11 月 20 日,死于帕金森症。)


如果你想进一步了解情况,看看招聘信息就知道了。最近,Terence Shin在上个月发布的一项调查(如下图所示),通过网络搜索整理了超过 15000 个数据科学家的工作清单,清单显示,雇主对 Hadoop 技能的需求正在急剧下降,C++、Hive 和一些遗留的专用语言也在其中。顺便说一下,对了,Spark 和 Java 也同样在清单中。如果向数据工程师提出同样的问题,结果是否会有所不同?


解决方案“Hadoop”被认为是 2014 年的事情。对于大数据来说,这个世界也在不断发展。大数据之所以被贴上这样的标签,是因为在那个时候,很少有人会对多达 TB 或 PB 级的数据进行梳理,对非关系数据进行分析的能力也有限。


如今,多模型数据库已经变得越来越普遍,而大多数关系数据仓库(Data Warehouse)也增加了解析 JSON 数据和叠加图形数据视图的功能。在云存储中直接查询数据和 / 或从数据仓库进行联合查询的功能也已变得司空见惯。


正如 Andrew 所说,“春季大扫除”旨在“清除蜘蛛网”。和传统的观念相反,Hadoop 并没有死亡。在Cloudera Data Platform(CDP)中,Hadoop 生态系统的一些核心项目仍在继续,这一产品非常有活力。因为幸存下来的是 CDP 之前还没有出现的打包平台,所以我们不再称之为 Hadoop 了。现在,动物园里的动物都安全地关进了笼子。



用几个甚至更多的独立开源项目来组建自己的集群的想法已经过时了。既然有其他可供选择的方案(我们不仅仅是在讨论 CDP),为什么还要浪费时间手工实现 ApacheMapReduceHiveRanger或者Atlas呢?至少在过去 30 年里,这一直是数据库领域的常态;当你购买 Oracle 时,你不必分别安装查询优化器和存储引擎。为什么我们用来调用 Hadoop 的数据平台会有所不同呢?


到 2020 年,对于新的项目,你的组织可能计划实施云服务,而非安装打包的软件。尽管推动云计算最初是为了转移成本,但现在更多是关于公共控制平面下的操作简化和敏捷性。


现在,有多种方法可以分析过去称为“三个 V”(Volum、Velocity、Variety,即体积、速度、种类)的数据。如今,你可以随时访问位于云对象存储中的数据,也就是事实上的数据湖(Data Lake)。


通过使用Amazon Athena等服务进行特别查询,可以实现这一点;在大多数云数据仓库服务中利用可选的联合查询功能;使用Databricks等专用服务或Azure Synapse Analytics等云数据仓库服务对数据运行Spark。由于数据仓库和数据湖之间的界限越来越模糊,现在很多人采用了模糊术语数据湖屋(Data Dakehouses),或者整合跨数据仓库和数据湖的访问,或者把数据湖变成 80% 的数据仓库。


而且我们甚至还没有涉及到人工智能和机器学习。就像早期的 Hadoop 只属于数据科学家(在数据工程师的帮助下)一样,最初机器学习和更广泛的人工智能也是如此。如今,数据科学家拥有许多工具和框架来管理他们所创建模型的生命周期。对于公民数据科学家而言,AutoML 服务使构建机器学习模型变得触手可及,而云数据仓库正在增加它自己的预打包机器学习模型,可以通过 SQL 命令来触发。


可能人们很容易忘记,仅仅在十年前,这一切似乎还是不可能发生的事情。谷歌的创新研究推动了这一领域的发展。借助谷歌文件系统,这家互联网巨头设计出了一个仅限于附加的文件系统,利用廉价磁盘的优势,突破了传统存储网络的限制。通过MapReduce,谷歌破解了这一密码,它在商品硬件上实现了几乎线性的可扩展性。在当时广泛采用的扩展性 SMP 架构中,很难做到这一点。


谷歌发表了这些论文,这对Doug CuttingMike Cafarella来说是件好事,他们当时正在开发一个能够索引至少 10 亿页的搜索引擎项目,发现了一条开源之路,可以大幅降低实现这样一个系统的成本。后来,社区的其他成员接过了 Cutting 和 Cafarella 的工作,例如,Facebook 开发了Hive,它提供了一种类似于 SQL 的编程语言,用来在 PB 级别梳理 PB 级各种数据集。


如今,随着经典 Hadoop 项目的采用率的下降,人们很容易忘记,Hadoop 项目的发现带来了一个良性循环,创新吞噬了年轻一代。在 Hadoop 出现的时候,数据就变得如此庞大,以至于我们不得不对数据进行计算。


随着云原生架构的出现,廉价、大量的带宽使之成为可能:再一次将更多的存储层、计算层和数据层分开。并不是说这两种方法都是正确或错误的,而是说它们适用于当时设计时就已存在的技术。这就是科技创新的周期性本质。


从 Hadoop 学到的经验突破了规模化处理的限制,从而促生了一个循环,很多旧的假设,比如 GPU 严格用于图形处理,都被抛在了一边。


Hadoop 的“遗产”不仅在于它所催生的创新良性循环,还在于它使企业能够克服对数据处理的恐惧,而且还是海量数据。

作者介绍:

Tony Baer,dbInsight LLC 的负责人,负责大数据和数据管理以及一些系统工程。领导 Ovum 的大数据研究领域,从事该行业的 25 年中,研究了数据集成、软件和数据架构、中间件和应用开发等问题。拥有多学科背景,涉及企业软件的不同层次。与他人合作出版了一些关于 Java 和 .NET 框架的早期书籍,并在多家杂志社发表过许多文章。


原文链接:


https://www.zdnet.com/article/hadoops-legacy-no-more-fear-of-data/#ftag=RSSbaffb68


2021-05-08 09:533603
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 589.3 次阅读, 收获喜欢 1981 次。

关注

评论

发布
暂无评论
发现更多内容

如何在 Vue 项目中,通过点击 DOM 自动定位VSCode中的代码行?

vivo互联网技术

Vue 前端 vscode vite webpack

文档管理系统应该具备哪些功能?

小炮

低代码实现探索(四十二)数据+方法+组件

零道云-混合式低代码平台

从社恐到社牛,多亏了这款私人学习成长暗器!

博文视点Broadview

OpenHarmony 官网文档有哪些上新?上篇:应用开发文档上新

OpenHarmony开发者

OpenHarmony

NodeJS 5分钟 连接MySQL 增删改查 🥇

德育处主任

node.js MySQL 6月月更

InfoQ 极客传媒 15 周年庆征文 | Kettle实现ES到ES循环增量抽取

写程序的小王叔叔

架构 kettle ELK Stack InfoQ极客传媒15周年庆

【Python技能树共建】scrapy 上手篇

梦想橡皮擦

Python 爬虫 Python爬虫 6月月更

Push还是Pull,这是个问题么?

MatrixOrigin

push Pull MatrixOrigin MatrixOne 数据库·

【高并发】高并发环境下构建缓存服务需要注意哪些问题?

冰河

并发编程 多线程 高并发 异步编程 6月月更

了解 Session、LocatStorage、Cache-Control、ETag

CRMEB

百问百答第42期:应用性能探针监测原理-.net

博睿数据

智能运维 博睿数据 性能监测

新闻速递 | MobTech受邀参与华为开发者联盟沙龙,谈数据智能撬动增长

MobTech袤博科技

移动互联网 运营 精细化运营 华为开发者联盟 HDG

C#入门系列(十四) -- 结构体应用

陈言必行

C# 6月月更

交友app源码未来的发展趋势是什么?

开源直播系统源码

NLP论文领读|缺少有标注的数据集怎么训练文本检索模型?来看看 LaPraDoR怎么做的吧

澜舟孟子开源社区

人工智能 自然语言处理 神经网络 深度学习 nlp

直播倒计时1天!天翼云HPC解决方案助力企业腾飞

天翼云开发者社区

芯动科技加入龙蜥社区,创新驱动生态发展

OpenAnolis小助手

操作系统 芯片 龙蜥社区 CLA 芯动科技

Linux开发_介绍目录编程、标准文件编程、Linux系统文件接口编程、GDB调试

DS小龙哥

6月月更

签约喜报 | 月财生态签约旺链科技,区块链溯源让有机产品“有迹可循”

旺链科技

区块链 产业区块链 食品溯源 有机食品

Flink CDC 在大健云仓的实践

Apache Flink

大数据 flink 编程 流计算 实时计算

EasyNLP带你玩转CLIP图文检索

阿里云大数据AI技术

数据挖掘 存储 算法框架/工具 机器学习/深度学习

如何在 Django 中使用 MVT 创建基本项目?

海拥(haiyong.site)

django 6月月更

实战模拟│揭秘为啥年会你抽不到特等奖

随机 概率 抽奖系统 6月月更

今天 3 点!Intel Arch 和高性能存储技术两大 SIG 核心成员在线分享|第 21-22 期

OpenAnolis小助手

容器 镜像 直播 内核 龙蜥大讲堂

ZooKeeper进阶(二):ZooKeeper的运行

No Silver Bullet

zookeeper 6月月更

面试官神级问题:DNS服务器是否可以加快我们的网络访问速度?

wljslmz

服务器 DNS 6月月更

如何使用 API 的方式消费 SAP Commerce Cloud 的订单服务

汪子熙

node.js SAP commerce 电商云 6月月更

java培训 | Mybatis的特性

@零度

mybatis JAVA开发

医疗机构如何利用云原生加速智慧医院建设?

York

云原生 系统架构 智慧医疗 医疗信息化 互联网医疗

小程序IDE,快速配置让App具备“一码通”能力

Speedoooo

ide 二维码 一码通

Hadoop 的“遗产”_AI&大模型_Tony Baer_InfoQ精选文章