【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

微软 Arindam Chatterjee 访谈:Azure HDInsight 4.0

  • 2018-10-25
  • 本文字数:2351 字

    阅读完需:约 8 分钟

Azure HDInsight 4.0 以 Apache Hadoop 3.1 为基础,其公开预览版最近在 Azure 上发布。其主要更新包括:

  • Apache Hive 3.0 LLAP(在 HDInsight 中称为交互式查询的低延迟分析处理),改进了快速查询和事务。
  • 具有可更新表的 Apache Spark 和使用 Hive Warehouse 连接器的 ACID 事务。
  • Apache HBase 2.0 及 Apache Phoenix 5.0 性能和稳定性特性。

Azure HDInsight 是一个基于 Apache Hadoop、Spark 和 Kafka 的服务提供服务,用于大数据处理和分析。它以 Apache Hadoop 3.1 和 hortonworks 数据平台(HDP)3.0 为基础,几乎所有的组件都进行了更新。

InfoQ 联系了微软首席主群经理 Arindam Chatterjee ,了解微软 Ignite 大会上发布的关于 HDInsight 的消息。

他介绍了托管服务相对于传统的基础设施即服务的优势、可以创建的不同类型的集群(Apache Hadoop、Spark、Kafka、Storm 等)以及如何根据实际需求定制。他讨论了基于活动目录集成的企业安全特性、数据迁移到集群的最新版本以及能够创建支持 Jupyter 和 Zepplin 笔记本的 Spark 集群。最后,他谈到了如何将社区工作整合到产品路线图中。

InfoQ:HDInsight 捆绑了 Hortonworks HDP 版本,是吗?除了“PaaS 与 IaaS”方法的典型优势之外,HDInsight 还提供了什么?

Chatterjee:Azure HDInsight 确实提供了来自 Hortonworks 的 HDP,然后对其进行了优化,使其能够在 Azure 中对 Azure 存储、Azure 数据湖存储(ADLS) Gen1 和 Gen2 等远程存储进行操作。HDInsight 是一个“托管平台”,对于内部部署或 IaaS 部署,客户可以获得他们期望的全部控制权和可扩展性,同时仍然可以从高可用性 SLA、24x7 监控以及与他们希望从 PaaS 服务获得其他 Azure 服务的深度集成中获益。

InfoQ:尽管 HDInsight 采用了更多的 PaaS 方法,但是定制每个安装容易吗?

Chatterjee:有几种方法可以定制 Azure HDInsight 集群。首先,HDInsight 允许客户通过 ssh 接入 HDI 集群,并根据他们的需求定制它,例如,通过安装自己的工具、微调配置设置等。其次,HDInsight 还允许客户在准备集群时运行自定义脚本(又名 ScriptAction),实现按需定制。

最后,客户可以在 Azure Marketplace 上选择 Hadoop/Spark 社区中最流行的 30 个应用程序中的任何一个,并将其安装到它们的集群中。这些应用程序针对大数据应用程序的所有方面都提供了独特的解决方案,包括数据摄取、机器学习、可视化、数据编排和治理等。

InfoQ: 从金融到医疗,在许多涉及大数据的垂直领域里,企业安全都是一个很大的需求。HDInsight 在这个领域提供了什么?

Chatterjee:Azure HDInsight 中的企业安全旨在提供全面的深度防御。

网络隔离:客户可以在 VNet(虚拟网络)中隔离他们的 HDInsight 集群,并配置 NSG 规则,以确保只有经过批准的用户 / 设备才能访问集群。此外,它们可以使用服务端点安全来限制对包含最敏感数据的数据存储的访问。

身份验证:与所有 Azure 服务一样,Azure HDInsight 集成了 Azure 活动目录(AAD),用于对所有的管理门户或功能访问进行身份验证。要访问实际的 HDI 集群,HDInsight 支持通过活动目录域服务(ADDS)进行 Kerberos 身份验证。这些特性使企业用户能够使用企业域凭证登录 HDI 集群。

授权:对于对所有的管理门户 / 操作,除了要严格执行标准的基于 Azure 角色的访问控制(RBAC)策略之外,Azure HDInsight 还支持 Apache Ranger,用于对 Hive/Hbase 表、Spark 和 Map Reduce 任务、Kafka 主题等进行细粒度访问控制。

数据保护:使用 Azure HDInsight,客户使用 Azure 存储或 ADLS Gen1 和 Gen2 存储数据。客户可以利用这些存储的静态加密特性来保护他们的数据。客户可以选择是管理自己的加密密钥(在 Azure 密钥库中),还是让微软代他们管理。

HDInsight 确保所有移动中的数据都使用 TLS 加密。

InfoQ:Spark 已经接管了大数据应用场景,这是否表明 Hadoop 已过时?您可以就 Azure Databricks 和 Azure 上的 HDInsight/Spark 做下对比吗?

Chatterjee:虽然与 Apache Hadoop(特别是关于查询性能)相比,Apache Spark 确实有其优势,但我们看到,为了更好地满足其用户日益增长的需求,Hadoop 和 Spark 栈都在进化。

Azure Databricks 是一款高级 Spark 产品,非常适合希望他们的数据科学家能够轻松协作、以行业领先的性能高效运行基于 Spark 的工作负载的客

Azure HDInsight 将 Hadoop 和 Spark 统一管理,使企业能够使用相同的工具集来管理它们,比如,使用 Ambari、Apache Ranger 等。通过支持 Jupyter 和 Zeppelin 笔记本,它还提供了行业标准的笔记本体验。希望轻松管理所有大数据工作负载的企业可以选择使用 HDInsight。

InfoQ:您能谈一下数据从以前的版本向 HDInsight 4.0 迁移并推荐一些最佳实践吗?

Chatterjee:我们刚刚发布了基于 Apache Hadoop 3.0 的 Azure HDInsight 4.0 预览版。我们正在与早期的采用者一起研究数据和代码从 HDInsight 的以前版本迁移的最佳实践。在此之前,我们鼓励客户查看开源社区提供的文档。

InfoQ:除了继续与 Hortonworks 合作之外,您能否提供一个 HDInsight 4.0 之后的路线图以及与 Hadoop、Spark 和其他社区合作的计划?

Chatterjee:微软将继续积极地参与到更广泛的开源社区中,向包括 Apache Yarn 在内的多个项目做贡献,并在最流行的开发工具(如 Eclipse、IntelliJ、VSCode 等)中提供创新性的开发和诊断功能。此外,我们将继续跟踪数据领域中出现的场景和创新(如流媒体、深度学习、实时 BI 等),目标是为客户提供最安全、最具成本效益的解决方案。

关于 HDInsgiht 最新版本的更多技术细节,请听 Microsoft Ignite 大会演讲的录音

查看英文原文: Q&A with Microsoft's Arindam Chatterjee about Azure HDInsight 4.0

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2018-10-25 09:48980
用户头像

发布了 1008 篇内容, 共 374.8 次阅读, 收获喜欢 341 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

力扣17 - 电话号码的字母组合【回溯、哈希映射、队列】

Fire_Shield

队列 深度优先搜索 9月月更

软件测试 | 测试开发 | 测试人生 | 从传统行业到名企大厂,薪资翻倍,我做到了

测吧(北京)科技有限公司

面试

软件测试 | 测试开发 | 项目倒排,跟工期不足say byebye~

测吧(北京)科技有限公司

测试人生

干货 | 背熟这些 Docker 命令,面试再也不怕啦~

霍格沃兹测试开发学社

干货 | 解决 App 自动化测试的常见痛点(弹框及首页启动加载完成判断处理)

霍格沃兹测试开发学社

TDengine 如何进行 SQL 写入?官方最全教程来了

TDengine

数据库 时序数据库 企业号九月金秋榜

WAIC|九章云极DataCanvas公司携因果学习技术成果精彩亮相!

九章云极DataCanvas

人工智能 开源 因果学习

2022 世界人工智能大会|人工智能与开源技术先锋论坛成功举办

Kyligence

人工智能大会 先锋科技论坛

干货 | 移动端App自动化之App控件定位

霍格沃兹测试开发学社

干货 | 谁懂这篇文,玩游戏还会卡顿?

霍格沃兹测试开发学社

软件测试 | 测试开发 | MockServer 服务框架设计

测吧(北京)科技有限公司

MockServer

同频共振数据时代,AntDB数据库与永洪科技完成产品互认证

亚信AntDB数据库

数据库 AntDB 国产数据库 AntDB数据库

软件测试 | 测试开发 | 测试人生 | 从外行到外包,从手工测试到知名互联大厂测开 这个90后小姐姐是怎么腾飞的?

测吧(北京)科技有限公司

测试人生

干货 | 环境问题还是测试的老大难?两个步骤轻松搞定

霍格沃兹测试开发学社

Kyligence 联合创始人兼 CEO 韩卿荣获金融科技风云人物奖

Kyligence

金融科技大会

字节前端必会面试题

夏天的味道123

JavaScript 前端

手把手教你如何进行拆解竞品

产品海豚湾

产品经理 需求分析 竞品分析 9月月更 市场调研

软件测试 | 测试开发 | 测试人生 | 年薪50w+ 并入职名企大厂,这是双非学历小哥哥给自己30岁的礼物

测吧(北京)科技有限公司

测试人生

干货 | 录制你的第一个web 自动化测试用例

霍格沃兹测试开发学社

干货|APP自动化Android特殊控件Toast识别

霍格沃兹测试开发学社

软件测试 | 测试开发 | 测试人生 | 疫情之下,1个月内涨薪50%拿下亿级流量金融上市公司新 offer,我柠檬了~

测吧(北京)科技有限公司

测试

软件测试 | 测试开发 | 专项测试技术初识Hook

测吧(北京)科技有限公司

测试

软件测试 | 测试开发 | 测试人生 | 拿到多个 offer 从了一线互联网公司并涨薪70%,90后小哥哥免费分享面试经验~

测吧(北京)科技有限公司

测试人生

干货 | 读懂 Appium 日志,让测试效率翻倍!

霍格沃兹测试开发学社

LG稳居高地再布新棋 顺应需求领跑高端家电市场布局新生态

Geek_2d6073

干货| app自动化测试之Andriod微信小程序的自动化测试

霍格沃兹测试开发学社

CeresDB 技术架构简介

TRaaS

#开源项目

WAIC 2022 | 洞见科技王湾湾:隐私计算在金融产业的应用与挑战

洞见科技

解读《Benchmarking Hybrid OLTP&OLAP Database Systems》| StoneDB学术分享会

StoneDB

数据库 国产数据库 StoneDB 企业号九月金秋榜 9月月更

干货 | 测试人职场晋升“潜规则”:15 年经验资深测试经理的职场忠告

霍格沃兹测试开发学社

软件测试 | 测试开发 | 测试人生 | 毕业2年,拒绝独角兽入职名企大厂涨薪10万+,这个95后小姐姐好飒

测吧(北京)科技有限公司

测试人生

微软Arindam Chatterjee访谈:Azure HDInsight 4.0_语言 & 开发_Rags Srinivas_InfoQ精选文章