10 月 23 - 25 日,QCon 上海站即将召开,现在大会已开始正式报名,可以享受 8 折优惠 了解详情
写点什么

Hadoop 之殇:没有任何单一技术能重塑整个企业 IT 世界

  • 2019-09-18
  • 本文字数:3251 字

    阅读完需:约 11 分钟

Hadoop之殇:没有任何单一技术能重塑整个企业IT世界

我曾在 Gigaom 网站上花了很多时间讨论 Hadoop,并长期关注 Hadoop 项目及其背后公司的发展情况。因此,在过去一年亲眼见证项目逐步从人们视野中消失之后,我开始思考到底出了怎么状况。在去年 10 月 Cloudera-Hortonworks 宣布合并时,我就做出过思考,但内容还不太完善。希望今天的文章能够真正系统地论述这个议题。


近十年来,Hadoop一直是“大数据”领域的典型代表。它新鲜,它开源,它催生出整个产品与供应商市场,而它的灵感则来自技术培训领域各大最强网站的实际运营状况。然而,现在回顾起来,Hadoop 似乎永远无法达成其崇高的发展愿景。虽然 Hadoop 项目仍然又大又新,但如今的世界已经快速转至更重视速度、灵活性、微观要素甚至是已知数量的阶段。


Hadoop当初选择了全面普及的道路,并与其它一系列技术产生了交叉与重合;从长远来看,这条道路有助于其提高自身影响力,但负面因素则是导致其逐渐偏离当初做出的最具价值的承诺。Hadoop 的故事可以帮助我们理解为什么现今的数据世界会呈现出这样的面貌,同时也能够给任何打算深入探索企业 IT 发展趋势的朋友们带来宝贵教训。下一个大事件会是什么?答案也许就在其中。


如今,热钱满天飞,企业探索技术并掌握技术的压力如此之大(又称数字化转型),人们自然倾向于将每一件新事物都视为有可能产生重大影响的潜在重点。这是一种极高的要求,但组织中的决策者必须得透过炒作看清这些事物所做出的承诺与其实际能够达成的目标之间的界线。以此为基础,我们才能正确选择最适合自身发展需求的技术方案。

总有更多空间可供挖掘……

诚然,每个人都希望获取(目前也仍然希望)Hadoop 最初承诺的能力。他们希望从网络日志、天气记录以及其它相对新颖的资源当中收集大量非结构化数据,对其加以分析并发现新的趋势或者独特的业务洞察能力。很多高管都希望实现数据驱动目标,帮助自己摆脱那些讨厌的直觉以及定性证据的影响。在大数据发展之初,这样的目标甚至可以说是整个新生行业为自己定下的奋斗原则。


当时有句口号,叫作发掘“数据不合理性中的价值”。企业 IT 终于有望从数据中汲取养分,这一切终于不再是谷歌公司的专利。


然而,大数据世界中发生的诸多事件一步步侵蚀了 Hadoop 分布式文件系统(HDFS)的基础,以及用于运行 MapReduce(最初的 Hadoop 编程模型)任务的计算引擎。好吧,整个过程其实相当复杂,下面我就尽可能精简一下:


  • 功能机发展为智能机,并开始产生大量实时数据流。 社交网络全面起飞并开始生成实时数据流。成本低廉的传感器与物联网迅速发展,这也成为新的实时数据来源。遗憾的是,“MapReduce”与“实时”往往扯不上什么关系。

  • 企业已经在关系数据库与数据仓库技术身上投入了数十亿美元,而且这些技术目前的运作效果仍然不错。更重要的是,技术人员已经对 SQL 相当熟悉。

  • 以 Apache Spark 为代表的竞争性、或者说是替代性项目开始持续涌现, 这些来自企业、大学以及网络公司的新兴方案也成功超越了大数据整体理念中的种种早期限制。

  • 风险资本流入大数据初创企业。其中包括围绕 Hadoop 建立自己的初创企业,也包括各类新兴项目与相关技术。虽然理论上,参与各方都在朝着同一个方向迈进,但在发展业务的过程中,具体激励因素有时并不一致。


我完全理解 Hadoop 社区做出的选择:他们与尽可能多的技术进行集成,并构建起一个业务流程层,以便在大型共享基础设施当中调度各类不同部分中的作业。正因为如此,我们得到 Pig、Hive、SQL-on-Hadoop 以及 YARN,同时也迎来了 Storm、Kafka 以及 Spark 等的加入。尽管 Hadoop 仍然非常复杂且难以操作,但它还是成功发展成了一套真正的数据平台。

技术无法在真空中存在

与此同时,其它一些重要的事件正在发生;虽然有一些看似与大数据领域无关人,但却给Hadoop乃至整个大数据社区带来重要影响。从本质上讲,我们在如何获取技术以及如何设计应用程序这个问题上,经历了几次重大的集体理解转变:


  • 作为新的企业 IT 主流解决方案,开源趋势正在全面普及。因此,用户对于易用性以及开箱即用功能的期望也开始增加。各类热门项目开始在 Apache 软件基金会以及其它传统开源社区之外茁壮成长。

  • 云计算统治整个世界,现在我们不仅能够轻松构建虚拟配置服务器,还能够以更低的成本存储大量数据,并使用管理服务处理特定用例——例如,通过 MapReduce 进行数据处理。

  • Docker 与 Kubernetes 的诞生。二者的到来,共同开启了人们对于应用程序及基础设施打包与管理的新思路。更重要的是,二者的模块化设计吸引到各大社区的高度关注,意味着用户们能够随意交换不同的部分或者特定功能,同时保证新功能快速上线。

  • 深度学习将人工智能与机器学习牵引至聚光灯下。 在基础设施之外,围绕深度学习的讨论主要集中在如何使模型与算法进行复杂的模式识别,且确保我们无需对其中的参数或内容进行手动调整。没错,在生产环境中引入 AI 绝不像“添加数据”那么简单,但人们更热衷于谈论其中的商业机会——毕竟这件事的门槛至少要比讨论集群规模要低一些,也更有吸引力一些。

  • 微服务成为现代应用程序中的客观架构标准,随后则出现了“无服务器”计算与函数。二者的诞生主要是为了支持事件驱动型架构这一思路——简单来说,就是当事情 A 发生时,服务 B 自动做出响应。

现状:事件、AI 以及“即服务”

这些因素汇集起来,共同成就了我们当前面对的客观现状。没错,Hadoop 仍然存在且不断发展,但却已经越来越不可能成为很多人当初预测的那种不可或缺的基础性技术。相反,大多数社区开始采用更快、模块化程度更高且更为简单的工具与平台集合,并将数据作为应用程序架构中的一种组成部分——而非单纯有待分析的素材。


具体来讲,我们现在观察到了以下趋势:


  • 流数据与事件驱动型架构越来越受欢迎。虽然其背后的基本思路已经拥有一定历史,但如今的技术与架构进步真正将其转化为现实,包括流处理甚至是基于函数(又称「无服务器」)计算。在大多数情况下,快速处理数据的能力要比批量处理数据或者对历史数据进行分析等方法更具价值。

  • Apache Kafka正成为越来越多数据架构中的神经系统。Kafka 不仅能够提供上述多种功能,同时爆棚的人气也使其成为各类项目与技术供应商的优先选择。Kafka 开始成为一切其它数据功能不可忽视的核心平台(只要启动并运行 Kafka,它就能够完成将数据导入 Hadoop 及其它批处理系统的工作)。

  • 云计算已经在基础设施、存储、数据分析以及 AI 服务等领域占据主导地位。Amazon S3 等数据存储服务在使用感受上,要比管理复杂的文件系统更轻松也更便宜。云服务供应商带来大量能够对全部数据进行分析与建模的现成方法,包括人工智能以及机器学习等功能。对于相当一部分(虽然不是全部)企业而言,管理自有数据基础设施与应用程序的弊端,已经大大超过收益。

  • 关系数据库——包括数据仓库——仍然拥有旺盛的生命力, 其它一些数据库选项(例如 Postgres)也在蓬勃发展。由云服务带来的操作便捷性(甚至可以说是无需操作)无疑是这些方案得以复兴的重大因素;此外,众多受到 Hadoop、NoSQL 以及过去十年来各类数据技术影响的新功能也在持续涌现。

  • Kubernetes正成为面向所有内容的默认业务流程层,其中自然包括数据系统与 AI。这缓解了市场对于 Hadoop 类数据编排平台(例如 YARN)的需求,同时鼓励用户采用更符合云原生价值主张的技术(简而言之,就是以微服务架构取代整体式架构,以大量小集群取代单一大型共享集群)。


虽然跨越众多服务与技术开发数据架构仍然相当困难,但如今的工具确实带来了诸多优势——这些优势,已经远远超越单一、整体式平台的供应范畴。工程师们可以随意使用自己熟悉以及喜爱的工具;随着更多新生事物的出现,他们也能够更轻松地进行实验,并非常自信地将它们整合起来发挥更大的作用。更重要的是,他们也可以借此让业务需求成为新技术采用的原动力,最终打破技术决策限制业务可行性的陈旧怪圈。


Hadoop 让人们了解到大数据中蕴藏的无限可能,但同时也提醒人们,没有任何单一技术有能力重塑整个企业 IT 世界——至少以后不会再有。


原文链接:


https://architecht.io/what-happened-to-hadoop-211aa52a297


2019-09-18 08:002349

评论

发布
暂无评论
发现更多内容

利用人工智能自动找Bug

测吧(北京)科技有限公司

测试

解码大语言模型奥秘:《大规模语言模型:从理论到实践》震撼上市!

博文视点Broadview

人工智能 | 什么是字符串?

测吧(北京)科技有限公司

测试

技术人对于文章标题的 4 点思考

Java 工程师蔡姬

技术人 21 天技术人写作行动营

Waves 14混音效果全套插件 附Waves mac破解补丁

Rose

Waves 14破解教程 Waves 14 最新版 Waves 14 Complete破解 后期混音

聊点写作配图那点破事儿

6点无痛早起学习的和尚

写作 21 天技术人写作行动营

如何在 Parallels Desktop for Mac 中备份、恢复或转移 Windows 虚拟机

Rose

Mac虚拟机下载 Parallels Desktop 19 Pd虚拟机破解版下载 Parallels 永久密钥

概念回顾:QUIC 和 HTTP/3

NGINX开源社区

TLS udp 数据流 QUIC HTTP/3

开发案例:使用canvas实现图表系列之折线图

HarmonyOS开发者

HarmonyOS

33 | 字符串匹配基础(中 ,下):如何实现文本编辑器中的查找功能

鲁米

把大模型当CPU,前阿里云首席安全科学家创业项目曝光

Openlab_cosmoplat

人工智能 | 如何利用ChatGPT自动生成测试用例思维导图

测吧(北京)科技有限公司

测试

32 | 字符串匹配基础(上):如何借助哈希算法实现高效字符串匹配

鲁米

Windows、Linux 和 Mac:操作系统之间的比较

小魏写代码

【亲测有效】Sketch for mac v99.1中文一键安装破解版

Rose

mac软件下载 矢量绘图设计 Sketch 99 Sketch中文破解

软件测试/测试开发丨人工智能在软件测试领域的成就

测试人

人工智能 软件测试

sublime text 中文破解版 附sublimetext注册码 Mac/win 文本代码编辑器

Rose

代码编辑器 mac软件下载 Sublime Text 4 破解版 Sublime Text注册码

软件测试/人工智能丨利用人工智能 ChatGPT 自动进行测试需求分析

测试人

人工智能 软件测试

OpenTiny Vue 组件库3.12.0 发布:文档大优化!增加水印和二维码两个新组件

OpenTiny社区

开源 前端 前端ui组件库

给祖传系统做了点 GC调优,暂停时间降低了 90% | 京东云技术团队

京东科技开发者

jvm调优 GC调优 系统优化

宣布全面推出适用于 macOS 的 Amazon EC2 M2 Pro Mac 实例

亚马逊云科技 (Amazon Web Services)

Amazon EC2 ELB ebs Amazon VPC Nitro 第五代系统

长安汽车金融:借助一体化智能可观测平台 Bonree ONE,提升智能告警收敛能力

博睿数据

拆解全景,解锁未来——深度分析大模型六大领域及五大应用解决方案

SEAL安全

人工智能 AI LLM LLM模型

人工智能 | 测试工程师如何突破职业瓶颈?

测吧(北京)科技有限公司

测试

人工智能/自动化办公/自动化测试 | Python全栈开发班开始报名啦!

测吧(北京)科技有限公司

测试

NFTScan 获得比特丛林 (BitJungle) 公司战略投资

NFT Research

NFT NFTScan

AlDente Pro激活码 v1.24 Macbook充电限制软件

Rose

AlDente Pro破解版 AlDente 激活码 Macbook充电限制软件

高效图像压缩器 4K Image Compressor Pro激活中文版

胖墩儿不胖y

压缩图片 图片压缩器 图片管理工具

Navicat Premium 15永久激活教程 Mac/win 数据库管理软件

Rose

数据库管理工具 Navicat Premium破解版 Navicat Premium 15中文版 Navicat 数据库下载

Hadoop之殇:没有任何单一技术能重塑整个企业IT世界_架构_Derrick Harris_InfoQ精选文章