【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

专访 Saumitra Buragohain : Hortonworks 数据平台 3.0

  • 2018-07-23
  • 本文字数:2418 字

    阅读完需:约 8 分钟

最近,基于 Hadoop 3.1 的 Hortonworks 数据平台(HDP)3.0正式发布了,它包含容器化、支持GPU、纠删码和Namenode Federation。企业功能包括利用HDP 3.0 默认安装的Apache Ranger 和Apache Atlas 的可信数据湖。该版本还去掉了一些组件,如:Apache Falcon、Apache Mahout、Apache Flume 和Apache Hue,同时Apache Slider 功能已经融入了Apache YARN。

InfoQ 就 Hadoop 的总体情况,特别是 HDP 3.0 采访了 Hortonworks 的产品管理高级总监 Saumitra Buragohain。

InfoQ:鉴于 Spark、Kafka 和其他大数据平台的成功,Hadoop 是否已经过时了?总体上Hadoop特别是 HDP 3.0企业仍有怎样的 **** 相关性,为什么开发人员要关注它们?

Buragohain:Hadoop 已经不再是 10 年前主要是跟存储层(Apache HDFS)和工作负载(MapReduce)有关的 Hadoop 了。我们现在处在工业 4.0 革命的前沿,Hadoop 大数据栈已经发展到包含实时数据库(由 Apache Hive 3.0 提供支持)、机器学习和深度学习平台(Apache Spark 和 Apache TensorFlow)、流处理(Apache Kafka 和 Apache Storm)、运营数据存储(Apache Phoenix 和 Apache HBase)。请继续关注我们的 HDP 3.0 博客系列!HDP 3.0 能够自有部署(on-prem),也可以部署于所有主要的云供应商(亚马逊、Azure 和谷歌云)。

InfoQ:HDP 3.0 的实时数据库是否旨在为交互式查询提供类似 Spark 的功能?您能否详细谈谈实现,提供一些技术细节?它如何能够帮助那些不需要大量编程的数据科学家?

Buragohain:实时数据库由 Apache Hive 3.0 和 Apache Druid 提供支持,并允许单个 SQL 层用于批处理和历史数据集。Druid 允许创建 OLAP cubing,以便我们能够实时查询大型数据集。在 HDP 3.0 中特别要强调的 Apache Hive 特性包括:

用于 LLAP 的工作负载管理:您现在能够在多租户环境中运行 LLAP 而无需担心资源竞争。

ACID v2 和 ACID 默认打开:我们正在发布 ACID v2。随着存储类型和执行引擎上性能的改进,与非 ACID 表相比,我们看到了相同或更好的性能。因此,我们默认启用 ACID 并且为数据更新提供完全的支持。

用于 Spark 的 Hive 仓库连接器:Hive 仓库连接器允许您把 Spark 应用和 Hive 数据仓库连接在一起。连接器自动处理 ACID 表。

物化视图导航:Hive 的查询引擎现在支持物化视图。该查询将在物化视图可用时自动使用它们以加速查询。

信息架构:Hive 现在直接通过 Hive SQL 接口公开数据库的元数据(表、列等等)。

JDBC 存储连接器:您现在能够映射任何 JDBC。

HDP 3.0 中特别值得留意的 Druid 功能包括:

Kafka – Druid 摄入:您现在能够将 Kafka 主题映射到 Druid 表中。事件将被自动摄入并可用于近乎实时的查询。

InfoQ:到处都是容器。请谈谈在 HDP 3.0 中如何利用容器?

Buragohain:YARN 一直在内存和 CPU 粒度上支持本机容器。我们正在扩展该模型以支持 Docker 容器,并在内存和 CPU 之上添加了 GPU 支持。这意味着,现在我能够把我的应用程序(如 Spark)和诸如 Python(无论是版本 2.7 还是版本 3.0)及不同的 Python 库这样的依赖项打包在一起,并在与其他租户共享的 HDP 3.0 集群中隔离运行。这意味着,我也能够利用 GPU 池特性,在 YARN 上运行 Docker 化 TensorFlow 1.8 。这也意味着,我能够解除和转移第三方工作负载,并在 HDP 3.0 上运行它们。因此,这就是 HDP 3.0 的强大功能,我们已经从 10 年前的 Hadoop 1.0 发展到现在。

InfoQ:深度学习是另一种趋势科技,并且看起来,在 HDP 3.0 和机器学习之间的协同作用增加了。您能否谈谈 HDP 和深度学习的使用?

Buragohain:当然可以。多年来,我们一直将 Spark 作为 HDP 栈的核心组件,这是 HDP 在客户安装基础上最大的工作负载之一。现在,我们正在扩展到深度学习框架,支持诸如 GPU 池 / 隔离这样的功能,从而让昂贵的 GPU 可以成为多个数据科学家共享的资源。正如上面所提到的,我们也支持容器化工作负载,因此,我能够利用 YARN GPU 池和存储在 HDP 3.0 数据存储层(或云存储中,如果 HDP 3.0 部署在云中)的训练数据,运行容器化 TensorFlow 1.8 来训练深度学习模型。您还能够观看我们的主题演示,那是在 DataWorks 峰会上,我们用 HDP 3.0 技术训练了一辆自动驾驶汽车(1:10 的比例)。

InfoQ:纠删码是 Hadoop 3.0 的一部分。您能否谈谈它是如何实现的?HDP 3.0 是否有其他调整?

Buragohain:纠删码本质上是跨节点的 RAID。就像在企业存储行业中,供应商和客户已经采用了 RAID6 来支持 RAID10(镜像),我们正在对 Hadoop 数据存储(Apache HDFS)进行类似的转变。我们把数据分成 6 个分片,并创建了 3 个奇偶校验分片,而不是为同样的数据创建 2 个相同的备份。这 9 个分片现在存储在 9 个节点中。因此,如果有 3 个节点宕机,我们将有 6 个分片(数据或奇偶校验),并且能够构建该数据。因此,这就是我们如何提供与 3 副本方法相同的故障恢复能力,同时将存储足迹减少一半。

我们默认使用副本方法。客户将需要配置一个目录以让纠删码编码,我们可以选择多个纠删码 Reed Solomon 编码:RS(6,3);RS(10,4);RS(3,2)。然后,任何进入该目录的数据是经过纠删码编码的。我们最初支持对冷数据的纠删码编码,但是,我们正在提供可选的英特尔存储加速库作为 HDP 3.0 实用程序的一部分以实现可选的硬件加速。

InfoQ:除了 Hadoop 3.0 提供的特性 **** 之外,HDP 3.0 增加了什么?HDP 3.0 及更高版本的路线图是什么?

Buragohain:请继续关注我们的博客。HDP 3.0 最近正式发布了,我们的发布说明详细描述了这些特性(跨实时数据库、流处理、机器学习和深度学习平台等等)。最后,我们在工具箱里提供了所有的工具,以便客户选取(可以与单个工作负载供应商比较一下)。我们正在对 HDP 进行长期投资,在 2019 年,我们将有更多令人兴奋的更新!

HDP 3.0 的发布说明可以从 HDP 3.0发布说明页面下载。

查看英文原文: Q&A with Saumitra Buragohain on Hortonworks Data Platform 3.0

感谢冬雨对本文的审校。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2018-07-23 08:08984
用户头像

发布了 199 篇内容, 共 81.7 次阅读, 收获喜欢 293 次。

关注

评论

发布
暂无评论
发现更多内容

区块链中的保险行业

13828808769

区块链技术应用开发 保险理赔

年轻人想详细了解做了十年Linux跟做了十年Windows的程序员差距有多大吗?听我慢慢道来!

ShenDu_Linux

Linux 程序员 windows

打造Django私有化缓存组件django-api-cache

pygodnet

django django-api-cache django缓存 私有化缓存 接口缓存

mysql的这些坑你踩过吗?快来看看怎么优化mysql?

比伯

Java 编程 架构 面试 计算机

区块链产业下的“非遗”突围战:商业化和手艺人发掘

CECBC

区块链 非遗

【得物技术】搜索引擎技术简介

得物技术

搜索引擎 技术 算法 排序 搜索

拆解增长黑客之知识篇

懒杨杨

产品 运营 增长

从战略到战略决策

Alan

战略管理 使命 愿景 战略思考 MVO

《操作系统概述》-第六版

计算机与AI

操作系统

讲述我在阿里六面的经历,幸好我掌握了这份“Java并发编程+面试题库”成功拿到20K的offer

比伯

Java 编程 架构 面试 计算机

架构师训练营第二周框架设计课后练习

Geek_xq

训练营第七周总结

大脸猫

极客大学架构师训练营

HTTP协议概述

落日楼台H

https HTTP 协议 HTTP2.0 HTTP3.0

腾讯 WXG 后台开发工程师对 MySQL 索引知识点总结

Java架构师迁哥

每周学点TARS——服务自定义命令

TARS基金会

c++ DevOps 后端 TARS

一周信创舆情观察(11.23~11.29)

统小信uos

只能用分布式锁,也能搞定每秒上千订单的高并发优化?

Java架构师迁哥

架构词典: 复盘

lidaobing

架构 复盘

「更高更快更稳」,看阿里巴巴如何修炼容器服务「内外功」

阿里巴巴云原生

容器 运维 云原生 双十一 CloudNative

我在阿里巴巴做 Serverless 云研发平台

阿里巴巴云原生

Serverless 容器 开发者 云原生 CloudNative

《迅雷链精品课》第十课:共识算法理论基础

迅雷链

区块链

价值、产业、数据加密,区块链如何助力互联网升级?

CECBC

区块链 互联网

线程池的优点及其原理,代码实现线程池。简单、明了。

Linux服务器开发

后端 网络编程 线程池 Linux服务器 web服务器

看区块链如何打通信息壁垒,盘活万亿级”积分”市场

CECBC

区块链 信息

我对业务方提出需求的态度

boshi

随笔杂谈 需求落地

ETV全球熵APP系统开发|ETV全球熵软件开发

系统开发 现成系统

京东云的云原生理念及Serverless最佳实践

lidaobing

程序员的故事

Philips

敏捷开发 快速开发 原创小说 企业开发 企业应用

架构师训练营 1 期 -- 第十一周总结

曾彪彪

极客大学架构师训练营

智能与影像的强耦合:华为Mate 40系列的视觉探索

脑极体

LeetCode题解:52. N皇后 II,回溯+哈希表,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

专访Saumitra Buragohain : Hortonworks数据平台3.0_语言 & 开发_Rags Srinivas_InfoQ精选文章