【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

使用 AWS Lake Formation 配合 Amazon EMR 控制数据访问与权限

  • 2020-10-13
  • 本文字数:3213 字

    阅读完需:约 11 分钟

使用 AWS Lake Formation 配合 Amazon EMR 控制数据访问与权限

Original URL: https://aws.amazon.com/cn/blogs/big-data/control-data-access-and-permissions-with-aws-lake-formation-and-amazon-emr/


如果建立起一套对数据湖访问的集中控制体系,结果会如何?我们能更安全、更便捷地帮助内部及外部客户共享特定数据吗?


使用 AWS Lake Formation 并将其与 Amazon EMR 相集成,大家能够轻松完成这类管理任务。


本文将从特定用例出发,回顾对现有数据湖内数据访问与权限加以控制的操作步骤。在开始之前,推荐大家参阅以下内容:


示例用例

我们假设您的企业使用 AWS 扩展了本地基础设施。由于本地数据中心内已经具备用于分析及机器学习负载的固定容量,因此您选择使用云服务执行其他计算与存储任务。AWS Direct Connect 将您的数据中心链接至最近的 AWS 区域。由于您的 Active Directory 服务器仍位于本地,因此您可以使用 Active Directory 连接器实现用户身份验证联动。为了实现成本优化与敏捷性,您还构建起一个数据湖,通过 Lake Formation 将业务数据集中至Amazon Simple Storage Service (Amazon S3)当中。


您的组织希望改善现有数据分析功能,并聘请了外部数据分析顾问。根据最低权限最佳实践,您只希望与外部顾问共享相关数据,且要求其中不涉及任何个人身份信息(PII),例如姓名、出生日期以及社保号码等。


为了避免云端数据受到未授权第三方的访问,我们需要一套安全、受控、符合审计要求且经过加密的数据解决方案。您还要求在列层级限制访问权限,确保外部顾问无法接触到 PII 数据。


此外,您还希望限制顾问对云资源的访问。他们应仅能使用特定的 AWS 身份与访问管理(AWS Identity and Access Management,简称 IAM)角色访问 EMR 集群。


下图所示,为本用例中的具体架构。



外部顾问通过兼容 SMAL 的本地目录服务与 IAM 联动,进而实现对 AWS 资源的身份验证与访问。大家可以控制来自本地身份提供方(IdP)对云资源的访问。关于更多详细信息,请参阅基于SAML 2.0的联动机制


Lake Formation 负责管理数据访问活动。数据湖管理员将在 Lake Formation 中以列为基本层级为各主体定义数据访问权限。这里的“主体”可以是与本地目录服务联动的用户。在本用例中,主体为对应外部顾问的特定角色,负责控制他们对 EMR 集群的只读访问权限。


由于我们在 Lake Formation 中为数据制定了细粒度权限,因此外部顾问将无法触及员工的姓名、出生日期以及社保号码。相反,他们只能访问非 PII 列。这项措施被称为假名化(pseudonymization)。在这类场景中,我们无法在没有其他数据的前提下识别 PII。假名化能够带来以下好处:


  • 保证身份验证以及用户/数据访问治理的集中化实现。

  • 由于存在规范的身份验证来源,因此管理开销更低、安全性水平更高。

  • 顾问使用 IAM 角色后,仅能通过 Lake Formation 访问数据以及与 EMR 集群相关联的实例配置角色。


大家无需管理指向 Amazon S3 的访问活动;所有访问都被集中在 Lake Formation 当中。如果要与更多用户共享数据湖数据,只需在 Lake Formation 进行定义即可。


在下一节中,我们将探讨如何实现这套解决方案。

创建数据湖

在开始本轮演练之前,首先需要创建一个数据湖。您可以通过策略与权限控制对该数据湖的访问活动,具体权限可以立足数据库、表或列层级进行创建。


在创建数据库时,我们需要完成以下步骤以启用 Lake Formation 中的细粒度访问控制权限。


  • 在 Lake Formation 控制台中的 Data catalog 下,选择 Databases。

  • 选择 Create database



  • 在 Name 部分,输入您的数据库名称。

  • 取消 Use only IAM access control for new tables in this database 勾选项。


如此一来,我们即启用了 Lake Formation 权限的细粒度访问控制。


  • 选择 Create database


调整权限

  • Permissions 下,选择 Data permissions

  • 选择 Grant



  • IAM users and roles 部分,选择哪些特定的 IAM 用户与角色可以访问数据湖。


这些账户可以与兼容 AWS 的 SAML 2.0 IdP 配合使用,借此实现对来自本地 Active Directory 访问的控制能力。


大家还可以直接定义 Active Directory 用户与组,但仅限将 Amazon EMR 与 Lake Formation 相集成的上下文之内。关于更多详细信息,请参阅Amazon EMR与AWS Lake Formation集成功能beta版:面向Apache Spark的数据库、表与列层级访问控制支持,以及Amazon EMR组件介绍


  • 在 Database 部分,选择您的数据库。

  • 在 Table 部分,选择您的表。

  • 在 Columns 部分,选择 Exclude columns

  • Exclude columns 部分,选择要排除的列(在本用例中,排除 first name、last name 以及 ssn 列)。

  • Table permissions 部分,选择 Select


这项功能允许您通过 IAM 用户或角色在列层级实现访问控制。


  • 选择 Grant


Lake Formation 与 Amazon EMR 相集成

从 Amazon EMR 5.26 版本开始,大家可以启动 EMR 集群并将其与 Lake Formation 进行集成。Amazon EMR 仅能根据 Lake Formation 定义的权限访问特定列或数据。关于更多详细信息,请参阅启用SAML的单点登录与细粒度访问控制架构


其中一项核心要求,就是配备一个专为 EMR 集群定义的外部 IdP(例如微软 Active Directory、Okta 或者 Auth0)。这样处理的好处,在于大家可以使用现有企业目录、合规性条款以及审计方案控制 Lake Formation 中的数据访问活动。关于具体操作说明,请参阅Amazon EMR与AWS Lake Formation的集成功能(beta版)


集成完成之后,顾问即可通过 Zeppelin 或者 Apache Spark 使用来自 Amazon EMR 的数据,且保证不会涉及 PII 内容。

其他安全措施

与大多数 AWS 服务一样,Amazon EMR 与 Lake Formation 也可使用 IAM 功能。在 IAM 的支持下,我们可以定义 IAM 用户或角色,借此授权对其他 AWS 服务及数据的访问权限。


在这套安全模式之上,AWS CloudTrail 能够进一步跟踪所有 AWS API 请求。您可以通过这项跟踪功能满足治理与合规层面的要求,保证及时了解各类 AWS 资源的实际使用情况。


要保护数据,大家可以使用传输加密与静态加密两种方式。此外,您也可以针对 EMR 集群定义特定的安全配置。关于更多详细信息,请参阅加密选项


要使用其他安全服务,您可以选择Amazon GuardDuty (一项威胁检测服务)以及 Amazon Macie(大规模数据发现与保护服务)。关于更多详细信息,请参阅AWS上的安全性、身份与合规性

总结

数据的使用在数据格式和规模两个方面已经取得了快速的发展。对不同技术(关系数据库、NoSQL、图数据库、明文文件等)进行管理则会显著增加运营开销。随着竞争烈度的提升,数据规模也将随业务推进而飞速发展,带来更大的计算与存储资源压力。这一切,都迫使组织需求通往更高敏捷性与速度水平的道路。


此外,大家可能需要与众多内部及外部客户共享业务需求数据,这不仅令数据治理难度进一步提升,同时也给权限与访问管理带来沉重负担。


在本文中,我们解释了如何控制数据湖的访问与权限机制。指向数据的访问活动将经过控制、加密与审计,AWS 也通过这种严密的方式支持组织客户的安全发展。而这一切,都将在本地 IdP 加 AWS/其他外部资源的混合基础架构之下成为现实。


您也可以启动数据湖项目,以安全且可扩展的方式通过多种 IAM 角色实现组织数据共享。整个过程只需要几分钟(而非以往安全方案的几个月),且不会对工程设施造成任何深层影响。


作为这项工作的自然延续,大家还可以将经过整理的数据引入 AWS Machine Learning 工具所支持的各类机器学习项目。


作者介绍


Nabil Ezzarhouni


AWS 公司合作伙伴解决方案架构师。他主要关注 DevOps、机器学习方向,作为重度宠物爱好者的他还热衷于陪伴他的小狗 Bandit。


Pawan Matta


AWS 公司解决方案架构师。Pawan 喜欢与客户合作,并在存储与迁移等领域为客户提供协助。在工作之余,Pawan 喜欢观看板球比赛和与朋友们玩主机游戏。


本文转载自亚马逊 AWS 官方博客


原文链接


使用 AWS Lake Formation 配合 Amazon EMR 控制数据访问与权限


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-10-13 10:061048

评论

发布
暂无评论
发现更多内容

2023 年度技术盘点:从13个企业关心的问题看懂用云范式的改变

阿里巴巴云原生

阿里云 容器 云原生

数字人大模型助力打造灵活交互数字人!

青否数字人

数字人

国产 Web 组态软件在玻璃生产线中的应用

图扑物联

CES 2024的亮点仅仅聚焦AI深度赋能和产业创新吗?| DALL-E 3、Stable Diffusion等20+ 图像生成模型综述

蓝海大脑GPU

centos7系统逻辑分区磁盘扩展教程

百度搜索:蓝易云

云计算 Linux centos 运维 云服务器

租赁舞台LED屏的注意事项及问题排除

Dylan

活动 LED显示屏 led显示屏厂家 效果广告

目标主力能源:华为智能光伏的时代指南针

脑极体

AI 能源

探究HTTP代理爬虫的反爬虫策略

百度搜索:蓝易云

云计算 Linux 运维 HTTP 云服务器

Ubuntu系统通用镜像加速配置教程

百度搜索:蓝易云

云计算 Linux ubuntu 运维 云服务器

Atlassian 停服 Bamboo,CI/CD 用不了了?教你快速迁移到极狐GitLab CI

极狐GitLab

AI大模型在电商商家端自定义报表分析中的应用与实践

百度开发者中心

人工智能 电商 大模型

人工智能大模型多场景应用原理解析

百度开发者中心

人工智能 图像识别 大模型

谈谈 RocketMQ 5.0 分级存储背后一些有挑战的技术优化

阿里巴巴云原生

阿里云 RocketMQ 云原生

隐私计算 互联互通又一成果,相关代码已在隐语社区发布!欢迎加入隐语标准生态

隐语SecretFlow

技术标准 数据安全 隐私计算 数据要素 互联互通

百度智能云千帆 AppBuilder 构建 AI 原生应用开发新范式

百度Geek说

人工智能 百度智能云

4个知名企业Offer拿到手软,他是怎么做到的?附面试真题

测试人

软件测试

vue-office文档预览跨域问题

麦兜

源码交付:定制软件开发的重要保障

SoFlu软件机器人

活动回顾|分享成果&展望未来,一起走进隐语年度嘉年华精彩现场叭!

隐语SecretFlow

隐私计算 数据要素流通 隐语开源社区

申万宏源基于 StarRocks 构建实时数仓

StarRocks

数据仓库 数据分析 实时数仓 StarRocks

热更新适配ibatis原理浅析

京东科技开发者

AI大模型低成本快速定制秘诀:RAG和向量数据库

百度开发者中心

人工智能 数据库 大模型

uniapp vuecli项目融合[小记]:将多个项目融合,打包成一个小程序/App,拆分多个H5应用

达摩

小程序 uni-app vue cli

《2024年金融业生成式AI应用报告》:已有6家上市银行发布大模型技术应用进展

科技热闻

精彩推荐 | 【深入浅出Docker原理及实战】「原理实战体系」零基础+全方位带你学习探索Docker容器开发实战指南(实战技术总结)

洛神灬殇

Docker 容器 云原生 容器技术 2024年第二十一篇文章

在游戏里开公司!基于ERNIE SDK的多智能体游戏应用

飞桨PaddlePaddle

百度 paddle 游戏开发 飞桨 飞桨国赛

vivo 海量基础数据计算架构应用实践

vivo互联网技术

大数据

文心一言 VS 讯飞星火 VS chatgpt (186)-- 算法导论14.1 3题

福大大架构师每日一题

福大大架构师每日一题

跨境电商如何利用item_get-根据ID取商品详情(shopee.item_get)提升用户体验?

技术冰糖葫芦

API 编排

青否科技推出交互式数字人应用广泛!

青否数字人

数字人

软件测试/测试开发|学习两个个月后拿到4个知名企业Offer,他是怎么做到的?

霍格沃兹测试开发学社

使用 AWS Lake Formation 配合 Amazon EMR 控制数据访问与权限_安全_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章