2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

专访 Saumitra Buragohain : Hortonworks 数据平台 3.0

  • 2018-07-23
  • 本文字数:2418 字

    阅读完需:约 8 分钟

最近,基于 Hadoop 3.1 的 Hortonworks 数据平台(HDP)3.0正式发布了,它包含容器化、支持GPU、纠删码和Namenode Federation。企业功能包括利用HDP 3.0 默认安装的Apache Ranger 和Apache Atlas 的可信数据湖。该版本还去掉了一些组件,如:Apache Falcon、Apache Mahout、Apache Flume 和Apache Hue,同时Apache Slider 功能已经融入了Apache YARN。

InfoQ 就 Hadoop 的总体情况,特别是 HDP 3.0 采访了 Hortonworks 的产品管理高级总监 Saumitra Buragohain。

InfoQ:鉴于 Spark、Kafka 和其他大数据平台的成功,Hadoop 是否已经过时了?总体上Hadoop特别是 HDP 3.0企业仍有怎样的 **** 相关性,为什么开发人员要关注它们?

Buragohain:Hadoop 已经不再是 10 年前主要是跟存储层(Apache HDFS)和工作负载(MapReduce)有关的 Hadoop 了。我们现在处在工业 4.0 革命的前沿,Hadoop 大数据栈已经发展到包含实时数据库(由 Apache Hive 3.0 提供支持)、机器学习和深度学习平台(Apache Spark 和 Apache TensorFlow)、流处理(Apache Kafka 和 Apache Storm)、运营数据存储(Apache Phoenix 和 Apache HBase)。请继续关注我们的 HDP 3.0 博客系列!HDP 3.0 能够自有部署(on-prem),也可以部署于所有主要的云供应商(亚马逊、Azure 和谷歌云)。

InfoQ:HDP 3.0 的实时数据库是否旨在为交互式查询提供类似 Spark 的功能?您能否详细谈谈实现,提供一些技术细节?它如何能够帮助那些不需要大量编程的数据科学家?

Buragohain:实时数据库由 Apache Hive 3.0 和 Apache Druid 提供支持,并允许单个 SQL 层用于批处理和历史数据集。Druid 允许创建 OLAP cubing,以便我们能够实时查询大型数据集。在 HDP 3.0 中特别要强调的 Apache Hive 特性包括:

用于 LLAP 的工作负载管理:您现在能够在多租户环境中运行 LLAP 而无需担心资源竞争。

ACID v2 和 ACID 默认打开:我们正在发布 ACID v2。随着存储类型和执行引擎上性能的改进,与非 ACID 表相比,我们看到了相同或更好的性能。因此,我们默认启用 ACID 并且为数据更新提供完全的支持。

用于 Spark 的 Hive 仓库连接器:Hive 仓库连接器允许您把 Spark 应用和 Hive 数据仓库连接在一起。连接器自动处理 ACID 表。

物化视图导航:Hive 的查询引擎现在支持物化视图。该查询将在物化视图可用时自动使用它们以加速查询。

信息架构:Hive 现在直接通过 Hive SQL 接口公开数据库的元数据(表、列等等)。

JDBC 存储连接器:您现在能够映射任何 JDBC。

HDP 3.0 中特别值得留意的 Druid 功能包括:

Kafka – Druid 摄入:您现在能够将 Kafka 主题映射到 Druid 表中。事件将被自动摄入并可用于近乎实时的查询。

InfoQ:到处都是容器。请谈谈在 HDP 3.0 中如何利用容器?

Buragohain:YARN 一直在内存和 CPU 粒度上支持本机容器。我们正在扩展该模型以支持 Docker 容器,并在内存和 CPU 之上添加了 GPU 支持。这意味着,现在我能够把我的应用程序(如 Spark)和诸如 Python(无论是版本 2.7 还是版本 3.0)及不同的 Python 库这样的依赖项打包在一起,并在与其他租户共享的 HDP 3.0 集群中隔离运行。这意味着,我也能够利用 GPU 池特性,在 YARN 上运行 Docker 化 TensorFlow 1.8 。这也意味着,我能够解除和转移第三方工作负载,并在 HDP 3.0 上运行它们。因此,这就是 HDP 3.0 的强大功能,我们已经从 10 年前的 Hadoop 1.0 发展到现在。

InfoQ:深度学习是另一种趋势科技,并且看起来,在 HDP 3.0 和机器学习之间的协同作用增加了。您能否谈谈 HDP 和深度学习的使用?

Buragohain:当然可以。多年来,我们一直将 Spark 作为 HDP 栈的核心组件,这是 HDP 在客户安装基础上最大的工作负载之一。现在,我们正在扩展到深度学习框架,支持诸如 GPU 池 / 隔离这样的功能,从而让昂贵的 GPU 可以成为多个数据科学家共享的资源。正如上面所提到的,我们也支持容器化工作负载,因此,我能够利用 YARN GPU 池和存储在 HDP 3.0 数据存储层(或云存储中,如果 HDP 3.0 部署在云中)的训练数据,运行容器化 TensorFlow 1.8 来训练深度学习模型。您还能够观看我们的主题演示,那是在 DataWorks 峰会上,我们用 HDP 3.0 技术训练了一辆自动驾驶汽车(1:10 的比例)。

InfoQ:纠删码是 Hadoop 3.0 的一部分。您能否谈谈它是如何实现的?HDP 3.0 是否有其他调整?

Buragohain:纠删码本质上是跨节点的 RAID。就像在企业存储行业中,供应商和客户已经采用了 RAID6 来支持 RAID10(镜像),我们正在对 Hadoop 数据存储(Apache HDFS)进行类似的转变。我们把数据分成 6 个分片,并创建了 3 个奇偶校验分片,而不是为同样的数据创建 2 个相同的备份。这 9 个分片现在存储在 9 个节点中。因此,如果有 3 个节点宕机,我们将有 6 个分片(数据或奇偶校验),并且能够构建该数据。因此,这就是我们如何提供与 3 副本方法相同的故障恢复能力,同时将存储足迹减少一半。

我们默认使用副本方法。客户将需要配置一个目录以让纠删码编码,我们可以选择多个纠删码 Reed Solomon 编码:RS(6,3);RS(10,4);RS(3,2)。然后,任何进入该目录的数据是经过纠删码编码的。我们最初支持对冷数据的纠删码编码,但是,我们正在提供可选的英特尔存储加速库作为 HDP 3.0 实用程序的一部分以实现可选的硬件加速。

InfoQ:除了 Hadoop 3.0 提供的特性 **** 之外,HDP 3.0 增加了什么?HDP 3.0 及更高版本的路线图是什么?

Buragohain:请继续关注我们的博客。HDP 3.0 最近正式发布了,我们的发布说明详细描述了这些特性(跨实时数据库、流处理、机器学习和深度学习平台等等)。最后,我们在工具箱里提供了所有的工具,以便客户选取(可以与单个工作负载供应商比较一下)。我们正在对 HDP 进行长期投资,在 2019 年,我们将有更多令人兴奋的更新!

HDP 3.0 的发布说明可以从 HDP 3.0发布说明页面下载。

查看英文原文: Q&A with Saumitra Buragohain on Hortonworks Data Platform 3.0

感谢冬雨对本文的审校。

2018-07-23 08:081573
用户头像

发布了 199 篇内容, 共 93.8 次阅读, 收获喜欢 295 次。

关注

评论

发布
暂无评论
发现更多内容

邀请函|2025 Altair 教育赋能:诚邀各大高校共建产品创新设计核心课程《面向3D打印的结构优化与创新设计》

Altair RapidMiner

机器学习 AI 仿真 建模 CAE

荣耀应用市场直投下载功能开放丨开发加油站

荣耀开发者服务平台

下载 荣耀开发者服务平台 应用市场 荣耀HONOR 荣耀应用市场

YashanDB WM_CONCAT函数

YashanDB

数据库

2025年2月安全更新深度解析:微软与Adobe关键漏洞修复指南

qife122

安全更新 微软补丁

AI Compass前沿速览:RynnVLA视觉-语言-动作模型、GLM-4.5V 、DreamVVT虚拟换衣、 WeKnora框架、GitMCP、NeuralAgent桌面AI助手

汀丶人工智能

北京卫视《为你喝彩》今晚 21:04:“铁头乔”的创业修行

Apache IoTDB

YashanDB ALTER AUDIT POLICY语句

YashanDB

数据库

分布式数据高效可靠检索新方法

qife122

分布式计算 信息检索

基于RankSVM改进相似案例检索排序性能

qife122

机器学习 法律AI

读书感悟 石油化工自动控制设计手册(9)

万里无云万里天

读书笔记 工厂运维

传帮带 人才梯队建设经验总结(1)

万里无云万里天

人才培养 工厂运维

观测云接收 OpenTelemetry Collector 数据最佳实践

观测云

OpenTelemetry

Dify入门篇(3)| 配置你的第一个LLM:OpenAI/Claude/Ollama

测吧(北京)科技有限公司

人工智能 自动化测试 测试开发 dify

技术文档 | Pulsar 中的消息保留、过期及积压机制解析(上)

AscentStream

消息队列 pulsar

基于某中心Bedrock的提示工程在合规检测中的应用

qife122

生成式AI 提示工程

为什么你拿捏不住客户的“真”需求?

IPD产品研发管理

产品 产品经理 产品设计 需求 软件研发

深度学习在计算机视觉领域的现状与未来

qife122

深度学习 CVPR

穿越回1995?利用Microsoft 365直送功能发起钓鱼攻击的技术分析

qife122

网络安全 Microsoft 365

从数据血缘到AI Agent:天翼云 × DolphinScheduler 的云上调度新篇章

白鲸开源

大数据 开源 Apache DolphinScheduler 用户案例 天翼云

融云IM、网易云信IM等39款即时通讯SDK适配鸿蒙5,社交协作更高效

新消费日报

AI公平性研究的三大挑战与解决方案

qife122

人工智能 机器学习

天翼云与飞轮科技达成战略合作,共筑云数融合新生态

SelectDB

Doris SelectDB 天翼云 数据库 大数据 飞轮数据

[LDAP: error code 34 - invalid DN]

刘大猫

人工智能 算法 智慧城市 智慧交通 invalid DN

读书感悟 石油化工自动控制设计手册(10)

万里无云万里天

读书笔记 工厂运维

低代码平台赋能高校学生,构建职业能力与企业需求的动态适配

中烟创新

4个月、2个人、1个霸榜的开源项目 !这位98年的校招生做到了!

京东零售技术

Text2SQL准确率暴涨22.6%!3大维度全拆

京东零售技术

YashanDB ALTER DATABASE LINK语句

YashanDB

数据库

专访Saumitra Buragohain : Hortonworks数据平台3.0_语言 & 开发_Rags Srinivas_InfoQ精选文章