写点什么

将 Hadoop 的计算和存储分开能有效的提升性能

  • 2015-12-30
  • 本文字数:1433 字

    阅读完需:约 5 分钟

2015 年,将 Hadoop 的计算和存储分开成为一个重要的 Hadoop 主题。大数据解决方案提供商 BlueData 今年发表过多篇关于这个主题的文章。来自Gartner 的 Merv Adrian 年初也在 Twitter 上表示,该主题已经成为业内的一个主要议题。近日,BlueData 副总裁 Anant Chintamaneni 回顾了他与EMC 大数据解决方案首席技术官 Chris Harrold 就此议题举办的网络研讨会的内容。

从众心理导致人们将雅虎、Facebook 或 LinkedIn 等早期大数据采用者的大数据实现方式视为实现大数据的唯一方式。大数据生态系统使得 Hadoop 成为下述内容的代名词:

  • 一大堆装有 Hadoop 的专用物理服务器;
  • Hadoop 的计算和存储位于相同的硬件机器上;
  • Hadoop 需要使用直连式存储(DAS)

Anant 认为,现在该废弃这些原则了。他给出了一种更好的实现大数据的方式,如下图所示:

新方法的指导思想主要有以下几项内容:

  • Hadoop 可以运行在容器或虚拟机上,即可以使用虚拟机或容器作为Hadoop 节点。这种软件定义的基础设施可以提供干净的环境,保证部署的可预见性,而且交付速度更快,成本更低。在研讨会上,Chris 曾着重说明了 Adobe 的虚拟化 Hadoop 部署。借助虚拟化,他们可以快速增加 Hadoop 的工作节点。另外,所有 Hadoop 供应商提供的“快速入门”选项都是在虚拟机或容器上运行 Hadoop。Netflix 已经基于虚拟化 Hadoop 集群构建出了出色的服务。
  • “数据本地化(data locality)”的概念已过时。数据本地化妨碍了企业采用 Hadoop,因为将 TB 级的数据复制到物理服务器,然后在每次有服务器宕机的时候进行数据平衡 / 再平衡,操作非常复杂,成本非常高昂。集群规模越大,情况越糟。像雅虎这样的互联网巨头之所以会那样做,是受以前的网络带宽所限。而现在,10Gbps 的网络也已很常见。将 Hadoop 的计算和存储分开还可以简化操作,用户可以分别扩展和管理计算和存储系统。另外,还有一个事实,就是在许多常见的 Hadoop 场景中,即使计算和存储在一起,Hadoop 任务也无法受益于数据本地化。
  • HDFS 并不需要本地磁盘,即 Hadoop 不需要本地直连式存储(DAS)。HDFS 更多的是一种分布式文件系统协议,在本地磁盘上运行 HDFS 只是其中的一种实现方式。现如今,许多公司都拥有 TB 级的数据,且数据来源多样(音频、视频、文本等)。这些数据存储在共享的存储系统中,如 EMC Isilon 。BlueData 和 EMC Isilon 提供了 HDFS 接口,允许将共享存储中的数据提供给 Hadoop 计算过程,而不需要复制数据。

Anant 用 BlueData 一个客户的测试数据说明了新方法所带来的性能上的提升。图一是本地虚拟化 Hadoop 集群与物理 Hadoop 集群的对比:

(图一)

可以看出,虚拟化 Hadoop 集群的性能比得上或超过了物理 Hadoop 集群的性能。图二比较了使用共享存储和 DAS 的虚拟化 Hadoop 集群:

(图二)

可以看出,企业级 NFS 的性能要高于基于 DAS 的 HDFS 系统。

最后,Anant 将网络研讨会的共识总结为以下几点:

  • 大数据是一个旅程:基础设施要经得起未来的挑战
  • 计算和存储分开可以为所有的大数据涉众提供更大的灵活性
  • 不要根据“数据本地化”做大数据基础设施的决策

Anant 期待更多的大数据部署使用共享存储,更多的部署使用容器和虚拟机,更多的企业将 Hadoop 的计算和存储分开。


感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群(已满),InfoQ 读者交流群(#2))。

2015-12-30 18:003445
用户头像

发布了 1008 篇内容, 共 419.4 次阅读, 收获喜欢 346 次。

关注

评论

发布
暂无评论
发现更多内容

国产数据库市场横空杀出个巨头?亚信 AntDB数据库凭什么

亚信AntDB数据库

数据库 AntDB 国产数据库 AntDB数据库

刨根问底系列之grpc-java入门

零点999

国内首家!博睿数据获信通院AIOps能力成熟度模型优秀评级

博睿数据

智能运维 博睿数据 Swift AI K可观测性 荣誉奖项

《数字经济全景白皮书》中国产业数字化趋势报告2023

易观分析

产业数字化 报告

软件测试丨一文搞定 Postman 接口自动化测试

测试人

软件测试 Postman 自动化测试 接口测试 测试开发

华为云弹性负载均衡ELB,如何保障服务器不瘫痪?

科技说

华为全球加速GA带给你稳定的网络体验!

清欢科技

原力MetaForce2.0版本佛萨奇系统开发技术讲解方案

I8O28578624

Maya的7个实用操作技巧

Finovy Cloud

云渲染 Maya,渲染

主数据的3大特征、4个超越和3个二八原则

用友BIP

对不起,你做的A/B实验都是错的——火山引擎DataTester科普

字节跳动数据平台

大数据 AB testing实战 12 月 PK 榜

华为云桌面为建筑行业BIM落地实施提供有力支撑

科技之光

架构实战营 3-6 消息队列架构详设随堂练习

西山薄凉

「架构实战营」

华为云全球加速GA,为现代企业跨国办公保驾护航

清欢科技

从三万英尺看全链路灰度

阿里巴巴云原生

阿里云 云原生 全链路灰度

Fastjson的反序列化漏洞复现

网络安全学海

黑客 网络安全 信息安全 渗透测试 漏洞挖掘

“灵、简、畅、安”,就选华为云桌面

科技之光

NFTScan 2022 年度总结

NFT Research

NFT 数据基础设施

怎么搭建自己的小型渲染农场?个人渲染农场配置

Renderbus瑞云渲染农场

渲染农场 搭建渲染农场

华为云弹性负载均衡服务,如何助企业应付流量压力

科技说

华为云桌面,助力企业智慧办公

科技之光

HTTP响应首部字段

穿过生命散发芬芳

HTTP 12月月更

有奖评测 | Serverless 应用引擎 SAE 征集令开启

阿里巴巴云原生

阿里云 Serverless 云原生

使用NineData实现企业级数据库备份, 数据备份告别“拆盲盒” ?

NineData

sql 数据恢复 多云架构 数据管理工具 数据备份

微服务洞察,让微服务更透明

阿里巴巴云原生

阿里云 微服务 云原生

Web3 聚合平台 AIDAMETA,圣诞BNB 大放送

股市老人

基于声网 Flat 实现“成语解谜”的 Web 小游戏

声网

JavaScript 开源 Web 互动白板

羊了怎么居家办公?免费不限速的远控软件RayLink一解燃眉之急!!

RayLink远程工具

远程控制软件 远程办公软件 远控软件 RayLink

时序数据库 TDengine 签约华锐技术,助力行情数据处理分析

TDengine

数据库 tdengine 时序数据库

大势所趋_ 华为云企业交换机ESW助力智慧医院转型

科技说

未来智安入围《2022年度中国数字安全能力图谱》威胁检测与响应领域能力者

未来智安XDR SEC

将Hadoop的计算和存储分开能有效的提升性能_语言 & 开发_谢丽_InfoQ精选文章