NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

从 HDFS 迁移到基于 Amazon S3 的 Apache HBase 的技巧

  • 2019-12-16
  • 本文字数:3085 字

    阅读完需:约 10 分钟

从 HDFS 迁移到基于 Amazon S3 的 Apache HBase 的技巧


Amazon EMR 5.2.0 开始,您可以选择基于


Amazon S3 上的 Apache HBase。在


S3 上运行 HBase 可为您额外带来多项优势,包括降低成本、数据持久性和更轻松地进行扩展。HBase 提供了多个可用于迁移和备份 HBase 表的选项。迁移到 S3 上的 HBase 的步骤与适用于 Apache Hadoop 分布式文件系统 (HDFS) 上的 HBase 的步骤类似。但是,如果您知道一些细微差别和一些“技巧”,则迁移会更容易。在本文中,我将介绍如何使用一些常用的 HBase 迁移选项开始使用 S3 上的 HBase。

HBase 迁移选项

选择正确的迁移方法和工具是确保 HBase 表成功迁移的重要步骤。但是,选择正确的迁移方法绝非易事。


以下 HBase 可帮助您迁移到 S3 上的 HBase:


  • 快照

  • 导出和导入

  • CopyTable


下图汇总了每个选项的步骤。



您使用的 HBase 迁移方法取决于各种因素。例如,EMR 提供的 HBase 版本 1.2.3 是您可在 S3 上运行的最早版本。因此,您要从中迁移的 HBase 版本可能是帮助您做出决定的重要因素。有关 HBase 版本和兼容性的更多信息,请参阅 _Apache HBase 参考指南_中的 HBase 版本号和兼容性


如果要从较早版本(例如 HBase 0.94)的 HBase 迁移,则应测试应用程序以确保其与较新的 HBase API 版本兼容。您肯定不想花费数小时迁移大型表,而只想了解您的应用程序和 API 是否与不同 HBase 版本兼容。


好消息是,HBase 提供的实用工具只需要迁移表的一部分。这可让您测试现有的 HBase 应用程序,而无需完全迁移整个 HBase 表。例如,可以使用“导出”、“导入”或“CopyTable”实用工具将表的一小部分迁移到 S3 上的 HBase。确认应用程序适用较新的 HBase 版本后,可以继续使用 HBase 快照迁移整个表。

选项 1:使用快照迁移到 S3 上的 HBase

您可以使用 HBase 快照轻松创建表备份。HBase 还提供 ExportSnapshot 实用工具,可让您将快照导出到其他位置,如 S3。在本部分,我将讨论如何将快照与 ExportSnapshot 结合使用,将表迁移到 S3 上的 HBase。


有关使用 HBase 快照执行表备份的详细信息,请参阅 _Amazon EMR 发行指南_中的使用 HBase 快照以及 _Apache HBase 参考指南_中的 HBase 快照。这些资源提供了可用于快照和 ExportSnapshot 的其他设置和配置。


以下示例说明了如何使用快照将 HBase 表迁移到 S3 上的 HBase。


注意:HBase 0.94 等较早的 HBase 版本的快照结构与您要迁移到的 HBase 1.x 的快照结构不同。如果您使用快照从 HBase 0.94 迁移,当您尝试恢复表时,会收到 TableInfoMissingException 错误。有关使用快照从 HBase 0.94 迁移的详细信息,请参阅从 HBase 0.94 迁移部分。


  1. 从源 HBase 集群中,创建表的快照:


   $ echo "snapshot '<table_name>', '<snapshot_name>'" | hbase shell
复制代码


  1. 将快照导出到 S3 存储桶:


   $ hbase org.apache.hadoop.hbase.snapshot.ExportSnapshot -snapshot <snapshot_name> -copy-to s3://<HBase_on_S3_root_dir>/
复制代码


对于 **ExportSnapshot** 实用工具中的 _-copy-to_ 参数,请指定您用于 EMR 集群 HBase root 目录的 S3 位置。如果您的集群已启动且正在运行,您可以通过在 EMR 控制台中查看集群的**配置** 或使用 AWS CLI 来查找其 S3 **hbase.rootdir** 值。以下是用于查找该值的命令:
复制代码


   $ aws emr describe-cluster --cluster-id <cluster_id> | grep hbase.rootdir
复制代码


  1. 启动一个将 S3 存储选项与 HBase 配合使用的 EMR 集群(如果您已启动并运行某个 EMR 集群,请跳过此步骤)。有关详细步骤,请参阅 _Amazon EMR 发行指南_中的通过控制台使用 HBase 创建集群。启动集群时,请确保 HBase root 目录设置为与导出的快照位于同一 S3 位置(即在上一步的 -copy-to 参数中使用的位置)。

  2. 从该快照恢复或克隆 HBase 表。

  3. 要恢复表并确保表名称与源表相同,请使用 restore_snapshot


       $ echo "restore_snapshot '<SNAPSHOT_NAME>'"| hbase shell
复制代码


* 要以其他表名称恢复表,请使用 **clone_snapshot**: 
复制代码


       $ echo "clone_snapshot '<snapshot_name>', '<table_name>'" | hbase shell
复制代码

使用快照从 HBase 0.94 迁移

如果使用快照方法从 HBase 版本 0.94 迁移,则在尝试从快照恢复时会收到错误。这是因为 HBase 0.94 中的快照结构与 HBase 1.x 中的快照结构不同。


以下步骤说明了如何修复 HBase 0.94 快照,以便将其恢复到 S3 上的 HBase 表。


  1. 完成上一示例中的步骤 1 至 3 以创建和导出快照。

  2. 在目标集群中,按照以下步骤修复快照:

  3. 使用 s3-dist-cp 将快照数据(存档)目录复制到新目录中。存档目录包含您的快照数据。目录可能会很大,具体取决于表的大小。使用 s3-dist-cp 可以加快此步骤的速度:


       $ s3-dist-cp --src s3://<HBase_on_S3_root_dir>/.archive/<table_name> --dest s3://<HBase_on_S3_root_dir>/archive/data/default/<table_name>
复制代码


* 创建并修复快照描述符文件: 
复制代码


       $ hdfs dfs -mkdir s3://<HBase_on_S3_root_dir>/.hbase-snapshot/<snapshot_name>/.tabledesc
$ hdfs dfs -mv s3://<HBase_on_S3_root_dir>/.hbase-snapshot/<snapshot_name>/.tableinfo.<*> s3://<HBase_on_S3_root_dir>/.hbase-snapshot/<snapshot_name>/.tabledesc
复制代码


  1. 恢复快照:


   $ echo "restore_snapshot '<snapshot_name>'" | hbase shell
复制代码

选项 2:使用“导出”和“导入”迁移到 S3 上的 HBase

正如我在前面部分探讨的,HBase 快照和 ExportSnapshot 是迁移表的理想之选。但有时您只想迁移表的其中一部分,因此您需要其他工具。在本部分,我将介绍如何使用 HBase“导出”和“导入”实用工具。


使用“导出”和“导入”将表迁移到 S3 上的 HBase 的步骤与 HBase 文档中提供的步骤没有太大差异。在这些文档中,您还可以找到详细信息,包括如何使用它们迁移表的一部分。


以下步骤说明了如何使用导出”和“导入”将表迁移到 S3 上的 HBase。


  1. 从源集群导出 HBase 表:


   $ hbase org.apache.hadoop.hbase.mapreduce.Export <table_name> s3://<table_s3_backup>/<location>/
复制代码


  1. 在目标集群中,创建要向其中导入数据的目标表。确保目标表中的列系列与导出的表/源表的列系列相同。

  2. 在目标集群中,使用“导入”实用工具导入表:


   $ hbase org.apache.hadoop.hbase.mapreduce.Import '<table_name>' s3://<table_s3_backup>/<location>/
复制代码


通常情况下,建议使用 HBase 快照迁移 HBase 表。但是,“导出”和“导入”实用工具对于测试使用案例非常有用,在这些情况下,只需迁移一小部分表并测试应用程序。如果您从没有 HBase 快照功能的 HBase 集群迁移,这也很方便。

选项 3:使用 CopyTable 迁移到 S3 上的 HBase

与“导出”和“导入”实用工具类似,CopyTable 是一个 HBase 实用工具,可用于复制 HBase 表的其中一部分。但请注意,如果您在无法兼容的 HBase 版本之间复制或迁移表(例如,从 HBase 0.94 复制到 HBase 1.x),CopyTable 无法使用。


有关更多信息和示例,请参阅 HBase 文档中的 CopyTable

小结

在本文中,我演示了如何使用常用 HBase 备份实用工具轻松将表迁移到 S3 上的 HBase。通过使用 HBase 快照,可以将整个表迁移到 S3 上的 HBase。要通过仅迁移或复制表的其中一部分来测试 S3 上的 HBase,可以使用 HBase“导出”、“导入”或“CopyTable”实用工具。


如果您有任何问题或建议,请在下方留言。




作者介绍:


Bruno Faria 是 AWS 的 EMR 解决方案架构师。 他与我们的客户合作,为他们在 Amazon EMR 上运行复杂应用程序提供架构方面的指导。在业余时间,他喜欢与家人共度时光和学习新的大数据解决方案。


本文转载自 AWS 技术博客。


原文链接:https://amazonaws-china.com/cn/blogs/china/tips-for-migrating-to-apache-hbase-on-amazon-s3-from-hdfs/


2019-12-16 15:49992

评论

发布
暂无评论
发现更多内容

解除限制!Alibaba不在低调,P8大神纯手撸300页Java高并发手册

Java~~~

Java 架构 面试 高并发 架构师

毕业总结

俞嘉彬

架构实战营

阿里大牛最新公开压轴的“Redis深度笔记”,GitHub已标星81.6K

Java~~~

Java redis 架构 面试 架构师

爆款阿里P5到P7晋升之路,九大源码文档助我超神果然努力幸运并存

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

MySQL 系列教程之(二)Windows 安装 MySQL5.7.17

若尘

MySQL 8月日更

DAPP钱包开发模式详细介绍

Geek_23f0c3

dapp 钱包系统开发 DAPP智能合约交易系统开发

这份阿里P8级别内部疯传的“Linux私房菜”让你一次吃个饱

Java 编程 程序员 IT 计算机

性能测试框架中实时QPS取样器实现

FunTester

性能测试 测试框架 QPS FunTester 取样器

终于拿到了阿里2021年度九大Java技术文档——面试题+文档+白皮书

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

被boss直聘转发过多而“封杀”的2021年全套java高级面试题有多牛

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

一夜标星过百万,轻松霸榜GitHub的手绘图解HTTP笔记,竟来源阿里

Java~~~

Java 架构 面试 网络 HTTP

网络攻防学习笔记 Day105

穿过生命散发芬芳

态势感知 网络攻防 8月日更

netty系列之:使用UDP协议

程序那些事

Java Netty nio udp 程序那些事

Alibaba22届校招启动!连夜整理一份七大专题Java架构速成笔记

Java~~~

Java 架构 面试 阿里 校招

猎杀时刻!阿里高工总结698页Spring学习笔记,疯狂狩猎大厂offer

Java~~~

Java spring 架构 面试 微服务

震惊!300多页美团百亿级系统架构设计实录首公开

Java 编程 架构 面试 架构师

上线仅仅三小时,豆瓣评分均9.0的“四本程序员必刷书籍”火了

Java 编程 面试 IT 计算机

马士兵老师亲自总结3000+道Java面试题,刷完吊打架构师面试官

Java 程序员 架构 面试 计算机

腾讯跟阿里两位王者之间的对比

Linux服务器开发

腾讯 阿里 C/C++ Linux服务器开发 Linux后台开发

京东T7架构师用470页就把微服务架构原理与开发实战文档讲完了

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

网络安全证书合集系列

网络安全学海

网络安全 证书 信息安全 渗透测试 安全漏洞

前方高能!Alibaba最新出版的JDK源码剖析手册(究极奥义版)开源

Java~~~

Java 架构 jdk 面试 架构师

校友名片小程序设计方案

CC同学

小程序云开发 校友小程序

缓存知识总结

十二万伏特皮卡丘

Alibaba内部首发“面试百宝书+超全算法面试手册”PDF版下载

Java~~~

Java 架构 面试 微服务 JVM

FastApi-14-文件上传-2

Python研究所

FastApi 8月日更

Alibaba12年技术老兵整理的“MySQL 学习笔记”带你轻松拿捏MySQL

Java~~~

Java MySQL 数据库 架构 面试

不愧是阿里内部“SpringCloudAlibaba学习笔记”这细节讲解,神了

Java 程序员 架构 面试 微服务

MySQL 系列教程之(三) MySQL 基本概念和操作

若尘

MySQL 8月日更

秒杀系统设计-超卖问题

泽睿

秒杀 秒杀系统

大专的我狂刷29天“阿里内部面试笔记”最终直接斩获十七个Offer

Java 程序员 架构 面试 IT

从 HDFS 迁移到基于 Amazon S3 的 Apache HBase 的技巧_文化 & 方法_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章