写点什么

使用 Kerberos 身份验证将 Amazon EMR 与 Microsoft Active Directory 集成(四)

  • 2020-01-13
  • 本文字数:2226 字

    阅读完需:约 7 分钟

使用 Kerberos 身份验证将 Amazon EMR 与 Microsoft Active Directory 集成(四)

管理和测试解决方案

现在您已配置并构建了解决方案,可以使用 Active Directory 凭证连接到集群来测试解决方案了。

使用 Active Directory 凭证(单点登录)通过 SSH 连接到集群

启动 Kerberized Amazon EMR 集群后,如果您使用了 AWS CloudFormation 模板并将客户端 IP 地址范围添加到了允许的 IP 地址参数中,您应该能够使用 SSH 客户端和 Active Directory 用户凭证连接到集群。如果您使用 SSH 连接到集群时遇到问题,请检查集群的安全组,确保它允许从客户端的 IP 地址(源)进行入站 SSH 连接(TCP 端口 22)。


以下步骤假定您使用的是 OpenSSH 等客户端。如果您使用的是其他 SSH 应用程序(例如,PuTTY),请参阅应用程序特定的文档。


注意:由于集群是使用跨领域信任配置启动的,因此当您使用 SSH 以域用户的身份连接到它时,不需要使用私钥(.pem 文件)。


要使用 SSH 以 Active Directory 用户身份连接到 Amazon EMR 集群,请运行以下命令。使用您在设置域控制器时创建的域管理员用户替换


ad_user,并使用集群的 URL 替换


master_node_URL(请查看堆栈的输出结果以查找此信息):


$ ssh -l <ad_user> <master_node_URL>
复制代码


如果您的 SSH 客户端配置为使用密钥作为首选身份验证方法,登录可能会失败。如果出现这种情况,您可以将以下选项添加到 SSH 命令,以强制 SSH 连接使用密码身份验证:


$ ssh -o PreferredAuthentications=password -o PubkeyAuthentication=no -l <ad_user> <master_node_URL>
复制代码


域用户使用 SSH 连接到集群后,如果这是用户连接的第一个集群,则会为该用户创建本地主目录。除了创建本地主目录之外,如果您在启动集群时使用了


create-hfs-home-ba.sh 引导操作(如果您使用 AWS CloudFormation 模板启动 Kerberized 集群,则默认情况下已完成),还会自动创建 HDFS 用户主目录。


注意:如果您手动启动了集群,并且未使用


create-hdfs-home-ba.sh 引导操作,则需要为您的用户手动创建 HDFS 用户主目录


首次使用 SSH 连接到集群时(以域用户的身份),如果您的域用户的 HDFS 主目录已成功创建,您应该会看到以下消息:



在 Kerberized Amazon EMR 集群上运行作业

要在 Kerberized 集群上运行作业,必须先对提交作业的用户进行身份验证。如果您按照上一部分的说明使用 SSH 以 Active Directory 用户的身份连接到集群,则系统应该会自动对用户进行身份验证。


如果运行


klist 命令时返回“未找到凭证缓存”消息,则意味着用户未经过身份验证(用户没有 Kerberos 票证)。您可以随时运行以下命令重新对用户进行身份验证(请确保 Active Directory 域全部使用大写字母):


$ kinit <username>@<AD_DOMAIN>
复制代码


对用户进行身份验证后,他们可以像在非 Kerberized 集群上一样提交作业。

审计作业

Kerberos 可以提供的另一项优势是,您可以轻松判断哪个用户运行了特定作业。例如,(使用 SSH)连接到具有 Active Directory 用户的 Kerberized 集群,然后提交 SparkPi 示例应用程序:


$ spark-example SparkPi
复制代码


运行 SparkPi 应用程序后,转至 Amazon EMR 控制台并选择您的集群。然后选择应用程序历史记录选项卡。您可以在此处查看有关应用程序的信息,包括提交作业的用户:


常见问题

尽管很难涵盖所有可能出现的 Kerberos 问题,但本部分将介绍一些可能发生的常见问题以及解决这些问题的方法。


问题 1:您可以成功连接集群并在集群上进行身份验证。但是,每当您尝试运行作业时就会失败,并显示如下所示的错误:


org.apache.hadoop.security.AccessControlException: Permission denied


解决方法:确保已为用户创建 HDFS 主目录,并且该目录具有相应的权限。


问题 2:您可以成功连接到集群,但无法运行任何 Hadoop 或 HDFS 命令。


解决方法:使用


klist 命令确认用户是否经过身份验证并具有有效的 Kerberos 票证。使用


kinit 命令重新验证用户身份。


问题 3:您无法使用 Active Directory 用户凭证连接(使用 SSH)到集群,但可以使用


kinit 手动验证用户。


解决方法:确保 Active Directory 域控制器是集群节点的 DNS 服务器(名称服务器)。

清理

完成并测试此解决方案后,请记得清理资源。如果您使用了 AWS CloudFormation 模板来创建资源,请使用 AWS CloudFormation 控制台或 AWS CLI/开发工具包删除堆栈。删除堆栈还将删除该堆栈创建的资源。


如果其中一个堆栈未删除,请确保该堆栈创建的资源没有依赖项。例如,如果您使用 AWS CloudFormation 部署了 Amazon VPC,然后使用不同的 AWS CloudFormation 堆栈将域控制器部署到该 VPC,则必须先删除域控制器堆栈,然后才能删除 VPC 堆栈。

小结

借助使用 Kerberos 对用户和服务进行身份验证的功能,您不仅能够保障大数据应用程序的安全,还能让您轻松将 Amazon EMR 集群与 Active Directory 环境集成。本文介绍了如何在 Amazon EMR 上使用 Kerberos 来创建单点登录解决方案,以便 Active Directory 域用户可以无缝访问 Amazon EMR 集群并运行大数据应用程序。我们还介绍了如何使用 AWS CloudFormation 自动部署此解决方案。



其他阅读资源

了解如何在 Amazon EMR 上运行 Jupyter Notebook 和 JupyterHub





作者介绍:


Bruno Faria 是 AWS 的 EMR 解决方案架构师。 他与我们的客户合作,为他们在 Amazon EMR 上运行复杂应用程序提供架构方面的指导。在业余时间,他喜欢与家人共度时光和学习新的大数据解决方案。


本文转载自 AWS 技术博客。


原文链接:https://amazonaws-china.com/cn/blogs/china/use-kerberos-authentication-to-integrate-amazon-emr-with-microsoft-active-directory/


2020-01-13 14:52749

评论

发布
暂无评论
发现更多内容

玩转服务器之网站篇:新手使用WordPress搭建博客和静态网站部署

京东科技开发者

Wordpress 部署 服务器 WordPress 企业号 5 月 PK 榜 静态网站部署

理论+实操|一文掌握 RFM 模型在客户数据洞察平台内的落地实战

袋鼠云数栈

大数据 RFM模型 标签体系 RFM

生态共建丨YashanDB与金蝶软件完成兼容互认证

YashanDB

数据库

当 Serverless 遇上 AI,锁定年度最佳 CP,这场论坛满足你的好奇心

阿里巴巴云原生

阿里云 Serverless 云原生

独立游戏开发:掌握成功的五大关键技巧

龙智—DevSecOps解决方案

游戏开发 独立游戏 独立游戏开发

7 步提升私有化部署的极狐GitLab 实例安全等级

极狐GitLab

DevOps 安全 SSH DevSecOps 密钥

Zilliz @ GOTC:大模型的记忆体——向量数据库的现在与未来

Zilliz

Milvus AIGC 向量数据库 zillizcloud cvpstack

企业号 6 月 PK 榜,火热开启!

InfoQ写作社区官方

热门活动 企业号 6 月 PK 榜

财务共享经验分享!权威教授解读企业走向财务数智化的关键路径

用友BIP

财务共享

是 CI 也是阿拉伯飞毯——腾讯云 CODING CI 3.0 云原生构建

CODING DevOps

云原生 持续集成 CODING DevOps

全面预算管理可以从科技发展中得到什么?

智达方通

全面预算管理 信息孤岛

APP出海的现状与挑战​

MobTech袤博科技

OIDC & OAuth2.0 认证协议最佳实践系列 02 - 授权码模式(Authorization Code)接入 Authing

Authing

低代码 OAuth 2.0 OIDC Authing

低代码+MOM:释放制造业数字化魅力

力软低代码开发平台

欧伟杰:乘“20+8”政策之东风,促进深圳空间数据向好发展

YashanDB

数据库

Server版支持即将到期,Jira和Confluence如何迁移?(2)

龙智—DevSecOps解决方案

云原生 迁移 云 原生云 CTO 迁移上云 迁移计划

为什么数字化转型就应该选择低代码?一文详解

加入高科技仿生人

低代码 数字化转型

靠AI自动生成视频撸自媒体收益,月入5000+

派大星

ChatGPT4

探索 Web 管理之路,OpenYurt 社区 UI/CLI SIG 正式启动

阿里巴巴云原生

阿里云 开源 云原生 openyurt

人脸识别图像技术的原理及其应用

数据堂

对线面试官-线程池(一)

派大星

面试

C4D必备的7个素材网站,很多爆款素材!

Finovy Cloud

C4D

【LLM for SE】顶会ICSE-2023发布LIBRO技术,利用大模型技术进行缺陷重现,自动重现率(33%)实现业界突破

云计算 华为云

极氪汽车 APP 系统云原生架构转型实践

阿里巴巴云原生

阿里云 云原生 合作

软件测试/测试开发丨学习笔记之App自动化用例录制、结构分析

测试人

程序员 软件测试 自动化测试 测试开发 appium

崖山数据库系统YCA认证,首发期限时免费!

YashanDB

数据库

WePY小程序框架如何使用

Onegun

小程序 小程序框架

财务共享案例分享!大型企业财务先锋交流财务数智化转型的关键举措

用友BIP

财务共享

数据可视化:地图类可视化图表大全

2D3D前端可视化开发

大数据 数据分析 数字化转型 数据可视化 数据可视化工具

生态共建丨崖山数据库系统与杉岩分布式存储系统完成兼容互认证

YashanDB

数据库

嘉为蓝鲸荣登广东软件风云榜,获评新技术应用最受欢迎产品TOP10

嘉为蓝鲸

软件 新技术 应用程序

使用 Kerberos 身份验证将 Amazon EMR 与 Microsoft Active Directory 集成(四)_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章