【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

微软 Arindam Chatterjee 访谈:Azure HDInsight 4.0

  • 2018-10-25
  • 本文字数:2351 字

    阅读完需:约 8 分钟

Azure HDInsight 4.0 以 Apache Hadoop 3.1 为基础,其公开预览版最近在 Azure 上发布。其主要更新包括:

  • Apache Hive 3.0 LLAP(在 HDInsight 中称为交互式查询的低延迟分析处理),改进了快速查询和事务。
  • 具有可更新表的 Apache Spark 和使用 Hive Warehouse 连接器的 ACID 事务。
  • Apache HBase 2.0 及 Apache Phoenix 5.0 性能和稳定性特性。

Azure HDInsight 是一个基于 Apache Hadoop、Spark 和 Kafka 的服务提供服务,用于大数据处理和分析。它以 Apache Hadoop 3.1 和 hortonworks 数据平台(HDP)3.0 为基础,几乎所有的组件都进行了更新。

InfoQ 联系了微软首席主群经理 Arindam Chatterjee ,了解微软 Ignite 大会上发布的关于 HDInsight 的消息。

他介绍了托管服务相对于传统的基础设施即服务的优势、可以创建的不同类型的集群(Apache Hadoop、Spark、Kafka、Storm 等)以及如何根据实际需求定制。他讨论了基于活动目录集成的企业安全特性、数据迁移到集群的最新版本以及能够创建支持 Jupyter 和 Zepplin 笔记本的 Spark 集群。最后,他谈到了如何将社区工作整合到产品路线图中。

InfoQ:HDInsight 捆绑了 Hortonworks HDP 版本,是吗?除了“PaaS 与 IaaS”方法的典型优势之外,HDInsight 还提供了什么?

Chatterjee:Azure HDInsight 确实提供了来自 Hortonworks 的 HDP,然后对其进行了优化,使其能够在 Azure 中对 Azure 存储、Azure 数据湖存储(ADLS) Gen1 和 Gen2 等远程存储进行操作。HDInsight 是一个“托管平台”,对于内部部署或 IaaS 部署,客户可以获得他们期望的全部控制权和可扩展性,同时仍然可以从高可用性 SLA、24x7 监控以及与他们希望从 PaaS 服务获得其他 Azure 服务的深度集成中获益。

InfoQ:尽管 HDInsight 采用了更多的 PaaS 方法,但是定制每个安装容易吗?

Chatterjee:有几种方法可以定制 Azure HDInsight 集群。首先,HDInsight 允许客户通过 ssh 接入 HDI 集群,并根据他们的需求定制它,例如,通过安装自己的工具、微调配置设置等。其次,HDInsight 还允许客户在准备集群时运行自定义脚本(又名 ScriptAction),实现按需定制。

最后,客户可以在 Azure Marketplace 上选择 Hadoop/Spark 社区中最流行的 30 个应用程序中的任何一个,并将其安装到它们的集群中。这些应用程序针对大数据应用程序的所有方面都提供了独特的解决方案,包括数据摄取、机器学习、可视化、数据编排和治理等。

InfoQ: 从金融到医疗,在许多涉及大数据的垂直领域里,企业安全都是一个很大的需求。HDInsight 在这个领域提供了什么?

Chatterjee:Azure HDInsight 中的企业安全旨在提供全面的深度防御。

网络隔离:客户可以在 VNet(虚拟网络)中隔离他们的 HDInsight 集群,并配置 NSG 规则,以确保只有经过批准的用户 / 设备才能访问集群。此外,它们可以使用服务端点安全来限制对包含最敏感数据的数据存储的访问。

身份验证:与所有 Azure 服务一样,Azure HDInsight 集成了 Azure 活动目录(AAD),用于对所有的管理门户或功能访问进行身份验证。要访问实际的 HDI 集群,HDInsight 支持通过活动目录域服务(ADDS)进行 Kerberos 身份验证。这些特性使企业用户能够使用企业域凭证登录 HDI 集群。

授权:对于对所有的管理门户 / 操作,除了要严格执行标准的基于 Azure 角色的访问控制(RBAC)策略之外,Azure HDInsight 还支持 Apache Ranger,用于对 Hive/Hbase 表、Spark 和 Map Reduce 任务、Kafka 主题等进行细粒度访问控制。

数据保护:使用 Azure HDInsight,客户使用 Azure 存储或 ADLS Gen1 和 Gen2 存储数据。客户可以利用这些存储的静态加密特性来保护他们的数据。客户可以选择是管理自己的加密密钥(在 Azure 密钥库中),还是让微软代他们管理。

HDInsight 确保所有移动中的数据都使用 TLS 加密。

InfoQ:Spark 已经接管了大数据应用场景,这是否表明 Hadoop 已过时?您可以就 Azure Databricks 和 Azure 上的 HDInsight/Spark 做下对比吗?

Chatterjee:虽然与 Apache Hadoop(特别是关于查询性能)相比,Apache Spark 确实有其优势,但我们看到,为了更好地满足其用户日益增长的需求,Hadoop 和 Spark 栈都在进化。

Azure Databricks 是一款高级 Spark 产品,非常适合希望他们的数据科学家能够轻松协作、以行业领先的性能高效运行基于 Spark 的工作负载的客

Azure HDInsight 将 Hadoop 和 Spark 统一管理,使企业能够使用相同的工具集来管理它们,比如,使用 Ambari、Apache Ranger 等。通过支持 Jupyter 和 Zeppelin 笔记本,它还提供了行业标准的笔记本体验。希望轻松管理所有大数据工作负载的企业可以选择使用 HDInsight。

InfoQ:您能谈一下数据从以前的版本向 HDInsight 4.0 迁移并推荐一些最佳实践吗?

Chatterjee:我们刚刚发布了基于 Apache Hadoop 3.0 的 Azure HDInsight 4.0 预览版。我们正在与早期的采用者一起研究数据和代码从 HDInsight 的以前版本迁移的最佳实践。在此之前,我们鼓励客户查看开源社区提供的文档。

InfoQ:除了继续与 Hortonworks 合作之外,您能否提供一个 HDInsight 4.0 之后的路线图以及与 Hadoop、Spark 和其他社区合作的计划?

Chatterjee:微软将继续积极地参与到更广泛的开源社区中,向包括 Apache Yarn 在内的多个项目做贡献,并在最流行的开发工具(如 Eclipse、IntelliJ、VSCode 等)中提供创新性的开发和诊断功能。此外,我们将继续跟踪数据领域中出现的场景和创新(如流媒体、深度学习、实时 BI 等),目标是为客户提供最安全、最具成本效益的解决方案。

关于 HDInsgiht 最新版本的更多技术细节,请听 Microsoft Ignite 大会演讲的录音

查看英文原文: Q&A with Microsoft's Arindam Chatterjee about Azure HDInsight 4.0

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2018-10-25 09:48974
用户头像

发布了 1008 篇内容, 共 374.0 次阅读, 收获喜欢 340 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

夜读 PingCAP CTO 文章总结 TiDB 三个特性

TiDB 社区干货传送门

7.x 实践

每日一题:LeetCode-153. 寻找旋转排序数组中的最小值

半亩房顶

面试 算法 LeetCode 二分查找 Go 语言

MetaVideo for Mac(视频元数据编辑工具)v1.1.3激活版

影影绰绰一往直前

SD-WAN零接触部署解析

Ogcloud

SD-WAN SD-WAN组网 SD-WAN服务商

静态分析工具的评估测试

华为云PaaS服务小智

华为云

判断SD-WAN是否适用于你的企业的关键问题

Ogcloud

SD-WAN SD-WAN组网 SD-WAN服务商

2023 年值得一读的技术文章 | NebulaGraph 技术社区

NebulaGraph

图数据库

软件测试|拒绝上市公司的 Offer,选择自己喜爱的行业,这么从容不迫他凭什么?

霍格沃兹测试开发学社

如何使用MindStudio轻松搞定大模型全流程开发

华为云开发者联盟

人工智能 华为云 大模型 华为云开发者联盟

聊聊TiDB里面如何实现读写分离

TiDB 社区干货传送门

实践案例

小程序开发实战案例五 | 小程序如何嵌入H5页面

盐焗代码虾

小程序 支付宝 web-view

MetaRename for Mac(文件重命名工具)v1.0.8激活版

影影绰绰一往直前

Mac FoneLab for Android for mac(Android数据恢复软件) v5.0.30免激活版

影影绰绰一往直前

IPQ4019: A powerful boost in the field of wireless communications

wallysSK

回顾 2023,NebulaGraph 的这一年的变化

NebulaGraph

图数据库

WiFi Explorer for mac(WiFi资源管理器)v3.5.1直装版

影影绰绰一往直前

对于数字人源码你了解多少?

青否数字人

数字人

How do IPQ9574 and IPQ9554 connect QCN9274 for WiFi7 connectivity?

wifi6-yiyi

802.11be

使用 HyBench 测试 TiDB

TiDB 社区干货传送门

性能测评 7.x 实践

Disk Drill for Mac(数据恢复软件)v5.4.1426中文激活版

影影绰绰一往直前

图像处理-Java-背景色平滑/反色

alexgaoyh

Java 图像处理 背景色平滑 反色

喜讯!云起无垠获评“德勤海淀明日之星”

云起无垠

SD-WAN保障服务质量的五大核心功能

Ogcloud

SD-WAN SD-WAN组网 SD-WAN服务商

拒绝上市公司Offer,选择自己喜爱的行业,从容不迫他凭什么?

测试人

软件测试 测试 自动化测试 测试开发 测试工程师

文心一言 VS 讯飞星火 VS chatgpt (182)-- 算法导论13.4 6题

福大大架构师每日一题

福大大架构师每日一题

精通 GraphQL API 设计:最佳实践指南

Apifox

程序员 前端 后端 graphql GraphQL API

GPT应用开发:GPT插件开发指南

EquatorCoco

前端 插件开发 应用开发 GPT

Apeaksoft Android Toolkit for Mac(安卓数据恢复软件)v1.2.16激活版

影影绰绰一往直前

左耳听风 - 优质代码「读书打卡 day 11」

Java 工程师蔡姬

读书笔记 程序员 个人成长 职业发展 优质代码

【教程】React-Native代码规范与加固详解

雪奈椰子

软件测试|测试管理训练营马上开营! 快来免费领取试听课吧~

霍格沃兹测试开发学社

微软Arindam Chatterjee访谈:Azure HDInsight 4.0_语言 & 开发_Rags Srinivas_InfoQ精选文章