NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

在 Apache Hadoop 中使用 Rhino 项目进行数据加密-Steven Ross 专访

  • 2014-08-24
  • 本文字数:2281 字

    阅读完需:约 7 分钟

Cloudera 最近发布了一条关于 Rhino 项目 Apache Hadoop 中静态数据(data at-rest)加密的新闻。Rhino 项目是由Cloudera、Intel 和Hadoop 社区合力打造的一个项目。这个项目旨在为数据保护提供一个全面的安全框架。

Hadoop 中的数据加密有两方面:静态数据,存在持久存储器上的数据,如硬盘;传输数据,数据从一个进程或系统传输到另一个进程或系统。大部分 Hadoop 组件提供了对传输数据加密的功能,但是不支持对静态数据进行加密。安全监管机构,如 HIPAA、PCI DSS 和 FISMA,也提倡要注意数据保护和加密。

Rhino 项目为 HBase 0.98 贡献了关键的安全特性。它提供了数据单元(cell)级别的加密和细粒度访问权限控制的功能。

InfoQ 最近和 Cloudera 安全部门的产品经理 Steven Ross 进行了交谈,了解到了 Rhino 项目的更多信息。

InfoQ:Rhino 项目是何时启动的?这个项目的目标是什么?

Steven Ross:为了推动一个全面的、用于 Apache Hadoop 数据保护的安全框架的开发,Intel 在 2013 年早期发起了 Rhino 项目的倡议,并为项目制定了几个大目标:

  • 利用硬件提升加密性能
  • 为 Hadoop 支持企业级认证和单点登录服务
  • 为 Hadoop 提供基于角色的访问权限控制功能,并在 HBase 中支持数据单元粒度的权限控制
  • 确保对 Apache Hadoop 重要组件的一致性审查

InfoQ:Rhino 项目是一个综合性项目。Apache Sentry 也被包含在 Rhino 项目中。Rhino 包含了哪些不同的子项目,能请你分享一些这些项目的细节吗?

SR:在 2013 年的夏天,Cloudera 发布的开源软件成为 Apache Sentry 项目(孵化中)的基础。这个项目得到了 Oracle、IBM 和 Intel 工程师们的鼎力相助。Apache Sentry 为 Hadoop 集群的数据和元数据提供了细粒度的认证支持,并且已经被一些大型企业部署在产品中。

Cloudera 和 Intel 有着战略伙伴关系。来自两个团队的安全架构师和工程师都已重申了加速对 Apache Hadoop 安全功能开发的承诺。为 Apache Hadoop 开发出更健壮的认证机制,Rhino 项目和 Apache Sentry 的目标是完全一致的。两家公司的安全专家的成果已经被合并在一起,并且他们现在在这两个项目上都有投入。

InfoQ:Apache Sentry 是个什么样的项目?

SR: Apache Sentry (孵化中)是一个高度模块化的系统。它为存储在 Apache Hadoop 集群中的数据和元数据提供了细粒度的、基于角色的认证功能。

Hadoop 生态圈中的项目有着各自不同的、需要单独配置的认证系统。Hadoop 的灵活性使得生态圈中不同的项目(如 Hive、Solr、MapReduce,Pig)能访问相同的数据。由于每个项目的认证配置都是独立的,管理员很可能在企图保证策略一致的情况下得到不一致的、相重叠的策略。

Sentry 提供了一套集中的策略。这套策略能被应用于许多不同的访问途径。通过这个方法,Sentry 解决了这个 IT 管理和安全上的挑战。因此,IT 管理员能够对数据集进行权限设置。并且知道无论通过何种途径访问数据,这些权限控制都会得到一致地执行。

Sentry 的技术细节:

Sentry 通过一组特权,如 SELECT 和 INSERT,控制着对 Hive Metastore 中每个 schema 对象的访问。schema 对象是数据管理中常见的实体,例如 SERVER、DATABASE、TABLE、COLUMN 和 URI,也就是 HDFS 中文件的位置。Cloudera Search 有它自己的一组特权(如 QUERY)和对象(如 COLLECTION)。

和 IT 团队已经熟悉的其他 RBAC 系统一样,Sentry 提供了:

  • 有层次结构的对象,自动地从上层对象继承权限;
  • 包含了一组多个对象 / 权限对的规则;
  • 用户组可以被授予一个或多个角色;
  • 用户可以被指定到一个或多个用户组中。

Sentry 通常被配制成默认不允许访问服务和数据。因此,在被划分到设有指定访问角色的用户组之前,用户只有有限的权限访问系统。

InfoQ:什么是高级加密标准新指令(Advanced Encryption Standard New Instructions,AES-NI)?它和 Rhino 项目有什么关系?

SR:Intel AES-NI 是 Intel Xeon 处理器系列和 Intel Core 处理器系列中新的加密指令集。它对高级加密标准(AES)算法进行了改进,并提高了数据的加密速度。

当启用加密时,企业主要关心的是 CPU 所需的“开销”。这些“开销”会导致数据的存储和获取操作变慢。AES-NI 将加密处理的工作交由专门的硬件负责。这个硬件能够更快地完成加密和解密操作,从而减小 CPU 的负载。

AES-NI 对 Rhino 项目中那些加密子项目的成功起到了重要的作用。然而并没有要求使用 HDFS 加密的 Hadoop 用户必须使用 Intel 芯片或者 AES-NI。尽管这些技术确实能在开启加密时改善加密 / 解密的性能,降低对系统性能的影响。

InfoQ:Rihno 项目未来的路线图是什么样的?

SR:下一步,Rhino 项目的大目标很可能保持不变。而其下的子项目(这些子项目通常会以两种形式存在,Apache 项目或者已存在项目中的一些 JIRA)有可能会逐步发展。在达到 HBase 细粒度安全(如上所述)的里程碑后,另两个子项目当前正在势头上:

  • HDFS 静态数据的加密。
  • 统一认证:致力于提供一套强制执行的访问策略,且不关心用户访问数据的方式,不论是 Hive、MapReduce 或其他访问途径。这项工作正在通过 Apache Sentry 项目完成。

所有集成工作已经完成,整个解决方案的测试和文档编写工作也已全面完成。

Rhino 项目实现了 Apache Hadoop(以及其他相关的 Apahce 项目)一部分的子项目。 CDH 捆绑了 Apache Hadoop 和生态圈中其他相关的项目。

查看英文原文: Data Encryption in Apache Hadoop with Project Rhino - Q&A with Steven Ross


感谢赵震一对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2014-08-24 08:453011

评论

发布
暂无评论
发现更多内容

带你熟悉云网络的“电话簿”:DNS

华为云开发者联盟

云计算 后端 IP DNS 局域网

兆骑科创高端人才项目引进落地,双创大赛承办,线上直播路演

兆骑科创凤阁

双创大赛承办

大型仿人机器人整机构型研究与应用

优必选科技

机器人

聚力打造四个“高地”,携手合作伙伴共铸国云!

天翼云开发者社区

云计算 云平台

Plato Farm有望通过Elephant Swap,进一步向外拓展生态

西柚子

敏捷开发与DevOps的对比

码语者

DevOps 敏捷

什么是传输层协议TCP/UDP???

C++后台开发

TCP 网络协议 udp 后端开发 C/C++开发

担心 GitHub?那就试试极狐GitLab 吧

极狐GitLab

git GitHub 开源 DevOps gitlab

如何通过ETL调度工具 TASKCTL 使用作业插件类型调用 kettle作业?

TASKCTL

数据仓库 kettle ETL #运维 TASKCTL

Qakbot新型感染链:使用Windows7系统侧加载感染设备

郑州埃文科技

dll Windows7 Qakbot

1对1直播源码——1对1语音聊天源码

开源直播系统源码

直播系统源码 语音聊天系统软件开发 一对一语音聊天软件

DevSecOps,让速度和安全兼顾

SoFlu软件机器人

一文详解 Redis 中 BigKey、HotKey 的发现与处理

冉然学Java

Java redis 微服务 bigkey HotKey

我们被一个 kong 的性能 bug 折腾了一个通宵

尔达Erda

程序员 运维 云原生 性能 bug

spark-streaming状态流之mapWithState

矛始

spark 状态流

共议公共数据开放,“数牍方案”亮相数字中国建设峰会

Jessica@数牍

隐私计算 数牍科技 公共数据开放

10 万字节Spring Boot +redis详细面试笔记(带完整目录)免费分享

程序员啊叶

Java 编程 程序员 架构 java面试

大咖说·图书分享 | 精益产品开发:原则、方法与实施

大咖说

产品开发 落地方法

双屏协作效率翻倍 灵耀X双屏Pro引领双屏科技新潮流

科技热闻

技术风向标 | 云原生技术架构成熟度模型解读

阿里巴巴云原生

阿里云 云原生 成熟度模型

次轮Okaleido Tiger即将登录Binance NFT,引发社区热议

西柚子

AOP切入点表达式及五种通知类型解析

王小凡

实践GoF的23种设计模式:观察者模式

华为云开发者联盟

Web 设计模式 开发 GoF

@千行百业,一起乘云而上!

天翼云开发者社区

云计算 云平台

使用python玩转文字类视频

技能实验室

签约计划第三季

一文搞懂│XSS攻击、SQL注入、CSRF攻击、DDOS攻击、DNS劫持

网络安全 经验分享 签约计划第三季

Plato Farm有望通过Elephant Swap,进一步向外拓展生态

小哈区块

Java 将OFD转换为PDF

在下毛毛雨

Java PDF OFD 格式转换

智能家居行业发展,密切关注边缘计算和小程序容器技术

Speedoooo

智能设备 边缘计算 智能家居 小程序容器

BSN IPFS(星际文件系统)专网简介、功能、架构及特性、接入说明

BSN研习社

BSN 分布式存储,

超越 Nginx!号称下一代 Web 服务器,用起来够优雅

冉然学Java

Java nginx GitHub 服务器 Web、

在Apache Hadoop中使用Rhino项目进行数据加密-Steven Ross专访_安全_Abhishek Sharma_InfoQ精选文章