阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

专访卢亿雷:谈 Hadoop 生态的最新发展

  • 2016-04-08
  • 本文字数:2639 字

    阅读完需:约 9 分钟

编者按:Hadoop 于 2006 年 1 月 28 日诞生,至今已有 10 年,它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用。在 2016 年 Hadoop 十岁生日之际,InfoQ 策划了一个 Hadoop 热点系列文章,为大家梳理 Hadoop 这十年的变化,技术圈的生态状况,回顾以前,激励当下。本文是 InfoQ 处于一线开发的社区编辑对卢亿雷老师进行的采访,对大家关心的问题进行了专业的解答。

InfoQ:Hadoop 会考虑内存或磁盘动态管理技术吗?

卢亿雷:随着实时计算的发展,Hadoop 会考虑内存管理技术的。动态管理的目的一个是资源自动发现, 一个是系统的效率. 从资源自动发现来看, 比如新的 Hadoop 版本已经支持根据机器内存大小的不同, 自动计算可以使用的内存量 ; 从系统效率角度来讲, 比如新的 Hadoop 已经支持对内存 /ssd/ 硬盘的分级存储管理, 可以更高效地使用存储.

InfoQ:基于 Hadoop 实现的设计本身,它能做到的最好性能是什么?以及哪些瓶颈是设计本身造成的,不可改变的?

卢亿雷:基于 Hadoop 架构设计本身,它能做到最好的性能是大批量数据离线统计,对于多次迭代计算等是它现在设计本身的瓶颈。但是随着 YARN 的发展, Hadoop 的计算层变得越来越像一个纯粹的计算资源管理系统, Spark/Storm/Flink 等多种计算模型都可以在 YARN 上来执行, 极大丰富了 Hadoop 支持的计算, 可以说, Hadoop 已经变得更像一个大数据的框架, 相信它的性能也会越来越好.

InfoQ:Hadoop 能否在底层就实现基于广义 shema 的存储结构,而不是现在的 block,这样会不会性能更好?

卢亿雷:Hadoop 原来设计主要是基于文本存储,后续也进行了改进,可以设计特定的 Schema 存储结构来提高性能,如 Hive 中使用的 RCFile,就是按需取字段,这样大大减少磁盘和网络 IO,可以提高性能。另一方面, Hadoop 底层存储是高度抽象的, 具体的存储结构甚至可以由用户来自定义, 比如现在就有用 AWS 做底层存储的模块, 还有用阿里云做底层存储的模块, 用户可以根据自己的需求来优化相应的存储结构.

InfoQ:Hadoop 越来越跟随着 Spark 的方向在开发,那是不是 Spark 新功能的出现会比较大的影响到 Hadoop 的发展?

卢亿雷:之前谈到, Hadoop 的 YARN 已经可以支持多种计算模型, Spark 就可以在 YARN 上来执行. 从这个层面来讲, Spark 新功能的出现, 会让 Hadoop 使用者更多地受益, YARN 的优化也会更好地支持 Spark 的新功能。另一方面, 在大数据量的存储方面, Hadoop 的 HDFS 基本上就是大数据事实上的存储标准, Spark 的大数据输入 / 输出也是基于 HDFS 的。

InfoQ:Hadoop 代码越来越大,学起来成本更大,怎样才能更优雅的掌握?

卢亿雷:广义的 Hadoop 指 Hadoop 家族, 包括 HDFS/MapReduce/YARN/HBase/Zookeeper 等等组件, 狭义的 Hadoop 单单指 HDFS/MapReduce/YARN, 建议先从这些组件学起.

首先需要学习和理解分布式存储和分布式计算的原理,可以参考 Google 的相关论文, 然后自己手动搭建一个 Hadoop 平台,测试各种组件,学习写 MapReduce 程序,之后可以学习使用 HBase 的搭建和基本使用. 对这些都有一个基本概念之后, 可以先编程使用这些组件, 看可以解决自己的什么实际问题. 最后, 学习最好的资源就是 Hadoop 的社区和源码, 是大数据学习的不二选择. 如果有条件的话, 在一个大数据公司工作, 实际使用它们, 会学习更快的。

InfoQ:Hadoop 解决异构存储介质上的功能现在有生产环境可以用吗?或者对应性能测试怎么样?

卢亿雷:Hadoop 解决异构存储介质上的功能主要支持普通硬盘、SSD、内存这三个存储介质,且在 Hadoop2.6 以后重点实现了,管理员可以在一个限定的 Datanode 跨磁盘存储层,以及应用程序可利用的 API 将数据存储到这些不同的存储层。这意味着管理员可以优化他们的应用程序通过使用 Hadoop 运行:在 SSD 存储层以提高读 / 写延迟;内存存储层进行快速读 / 写;普通硬盘可以进行归档存储层,以提高存储效率。所以可以在生产环境上使用的,前提是需要有同学对这块了解才可以。具体的测试性能需要看对应的应用场景,如果搭配的好,性能提升是比较显现,但是也需要注意的是如果内部数据交换比较多或者带宽有限制,从而导致文件 IO 不是瓶颈,带宽才是瓶颈,则性能基本不会有提升。总的来说如果业务没有特别的要求,其实也不用 Hadoop 的异构存储的功能。

InfoQ:Hadoop 有从底层来设计支持 DAG 优化 (比如现在有的 Tez,Flink)mapreduce 吗?

卢亿雷:目前没有,如果要从底层支持 DAG 优化,那就是重写 Hadoop 架构了。其实现在的 YARN 已经把计算的管理独立了出来, 完全可以在 YARN 上玩出计算的各种花样。现有的 Tez、Flink 等都是基于 Hadoop 之上来实现 DAG 优化的。大家都知道 Apache Tez 是基于 Hadoop Yarn 之上的 DAG(有向无环图,Directed Acyclic Graph)计算框架。它把 Map/Reduce 过程拆分成若干个子过程,同时可以把多个 Map/Reduce 任务组合成一个较大的 DAG 任务,减少了 Map/Reduce 之间的文件存储。同时合理组合其子过程,减少任务的运行时间,由 Hortonworks 开发并提供主要支持;而 Flink 是一个开源的针对批量数据和流数据的处理引擎,且支持 DAG 的运算。像 Tez、Flink 等都可以直接运行在 YARN 上,所以对于 Hadoop 来也不是必须一定要在底层上支持 DAG 的优化,这样分层后也有利于各自的发展。

InfoQ:集群在上百台机器的规模,增加(移出)十来台机器时怎么迁移其上的数据?

卢亿雷:通过 rebalance 来实现,前提是带宽需要做控制。一般大规模的集群都会有一个 rebalance 在持续运行的。如 Hadoop 的 rebalance 是一个非自动的管理功能,换句话说,它是由人工启动的。在任意一台能够连接到 HDFS 的机器上命令行下输入 hadoop balancer [-threshold] 即会启动。如果集群处于不平衡状态,这个过程就会在不平衡的节点之间迁移数据,如果 rebalance 过程没有被打断的话,完成此次 rebalance 目标后过程会自动停止。

受访嘉宾:卢亿雷,精硕科技 (AdMaster) 技术副总裁兼总架构师,大数据资深专家,CCF(中国计算学会)大数据专委委员,北航特聘教授。主要负责数据的采集、清洗、存储、挖掘等整个数据流过程,确保提供高可靠、高可用、高扩展、高性能系统服务,提供 Hadoop/HBase/Storm/Spark/ElasticSearch 等离线、流式及实时分布式计算服务。对分布式存储和分布式计算、超大集群、大数据分析等有深刻理解及实践经验。有超过 10 年云计算、云存储、大数据经验。曾在联想、百度、Carbonite 工作,并拥有多篇大数据相关的专利和论文。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2016-04-08 19:002617
用户头像

发布了 43 篇内容, 共 27.7 次阅读, 收获喜欢 7 次。

关注

评论

发布
暂无评论
发现更多内容

INFINI Gateway 与华为鲲鹏完成产品兼容互认证

极限实验室

Gateway 极限科技 华为鲲鹏认证

CI/CD 构建中能保护好 SSHKEY吗?

极狐GitLab

DevOps SSH CI/CD SSH Key

NGINX 和 NGINX PLUS 缓存指南

NGINX开源社区

nginx 性能优化 NGINX PLUS 缓存调优 分割缓存

office办公套件:Office LTSC 2021 for Mac v16.81 beta版

加油,小妞!

office办公套件 办公套件 Microsoft office

SmartSVN for Mac(SVN客户端)v14.4激活版

影影绰绰一往直前

Clop Pro for mac(图片优化工具)v2.4.0激活版下载

影影绰绰一往直前

数据库系统概述之国产数据库

小齐写代码

简单上云第一步的华为云服务器,助力中小企业提升业务

平平无奇爱好科技

华为云耀云服务器L实例,助力企业开启轻松云计算之旅

YG科技

Dropzone 4 for mac(文件拖拽增强工具)v4.80.0激活版

影影绰绰一往直前

A16Z领头的Story Protocol有什么看点?

币离海

BRC20 Story Protocol

8. 业务中台架构

Joy

兴湘集团司库管理平台成功上线,打造国企数智管理新标杆!

用友BIP

企业数智化

Keka for Mac(压缩解压工具) 1.3.6中文版

展初云

Mac 解压缩软件 Keka

云游戏迎来新时代,华为云轻应用服务器引领数字化创新

YG科技

华为云三重优惠!云耀L实例轻松应对挑战,助您企业更高效上云

YG科技

华为云耀云服务器L实例多重防护助力企业放心上云

YG科技

Mitti for Mac(视频回放编辑工具)v2.5.6激活版

影影绰绰一往直前

苹果电脑压缩解压工具:Keka for Mac中文版

加油,小妞!

Keka Mac 压缩解压工具

HarmonyOS后台任务管理开发指南上线!

HarmonyOS开发者

HarmonyOS

华为云耀云服务器L实例:创新的解决方案,推动小程序与网站开发新趋势

YG科技

Mac电脑PDF 批量处理软件:BatchOutput PDF激活版

胖墩儿不胖y

Mac软件 pdf处理工具 好用的PDF编辑器

OpenHarmony Meetup 2023北京站圆满举办

OpenHarmony开发者

OpenHarmony

华为云耀云服务器L实例:在小程序竞争中的强大利器

YG科技

比特币首次减半11 周年:从 12 美元涨至 37,000 美元

币离海

BTC 减半

多功能视频播放器Infuse中文激活版最新

mac大玩家j

Mac软件 视频播放器 音视频工具

Dropzone 4 for Mac(文件拖拽操作增强工具)

展初云

效率工具 Mac Dropzone 4

高性能云计算,华为云服务器行业遥遥领先

平平无奇爱好科技

Kubernetes 漫游:kube-scheduler

Phoenix

云原生 kubernetes 运维

Royal TSX 6 for Mac远程管理软件

展初云

Mac软件 远程桌面管理

Programming Abstractions in C阅读笔记:p202-p234

codists

专访卢亿雷:谈Hadoop生态的最新发展_大数据_侠天_InfoQ精选文章