【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

HBase ORM SimpleHBase 设计

  • 2014-06-05
  • 本文字数:3285 字

    阅读完需:约 11 分钟

目前企业软件开发占据主流的开发模式为面向对象模式。无论是建立在集合论之上的传统关系型数据库,还是以 CAP 定理 /Hadoop/BigTable 为基石的 HBase,都面临以下的基本问题:

  • 如何保存对象到数据存储?
  • 如何从数据存储获取对象?
  • 如何更新数据存储中的现有数据?数据存储的类型系统和开发语言(Java)的类型系统之间如何相互转换?

简而言之,数据存储如何提供增、删、改、查的服务能力,应用如何方便的使用该能力。关系型数据库给出的答案为 SQL,JDBC 和各种 ORM 框架(典型例子为 Hibernate 和 MyBatis)。

HBase ORM

ORM 即 Object-Relational mapping,对于 HBase 而言不存在 Relational,因此该名称不准确,只是 ORM 做为一个术语使用太过广泛,这里泛指数据存储和 Object 之间的映射。

HBase 的设计和 RDBMS 差异较大,因此除了上一小节的问题外,还需要解决如下问题:

  • 如何映射 HTable 的 RowKey?
  • 如何映射 HTable 的 bytes 到 Java 类型?
  • 如何映射 HTable 的多版本能力?

本文着重介绍 HBase ORM SimpleHBase 框架,并和另一个 HBase ORM Phoenix( http://phoenix.incubator.apache.org/ )做比较。

SimpleHBase 简介

SimpleHBase( https://github.com/zhang-xzhi/simplehbase )是 Java 和 HBase 之间的轻量级中间件,主要包含以下功能:

  • 数据类型映射:Java 类型和 HBase 的 bytes 之间的数据转换。
  • 简单操作封装:封装了 HBase 的 put,get,scan 等操作为简单的 Java 操作方式。
  • HBase query 封装:封装了 HBase 的 filter,可以使用 SQL-like 的方式操作 HBase。
  • 动态 query 封装:类似于 mybatis,可以使用 xml 配置动态语句查询 hbase。
  • insert,update 支持: 建立在 HBase 的 checkAndPut 之上。
  • HBase 多版本支持:提供接口可以对 HBase 多版本数据进行查询, 映射。
  • HBase 原生接口支持。
  • HTablePool 管理。

设计理念

Phoenix 的设计理念为:We put the SQL back into NoSql。该理念的优点如下:

  1. SQL 做为大众熟悉的 API,用户学习成本较低。
  2. 减少程序员的代码开发量。
  3. 性能优化对用户透明。
  4. 兼容既有的基于 SQL 的工具。

该理念的缺点如下:

  1. SQL 屏蔽了 HBase 和 RDBMS 设计上的差别,抽象泄露的风险较高。关于抽象泄露参考 http://www.joelonsoftware.com/articles/LeakyAbstractions.html
  2. 为了 SQL 兼容,引入了 JDBC 层。由于 RDBM 和 HBase 的设计与模型本身差异较大,引入 JDBC 后,导致部分 HBase 的特性难以友好的支持。
  3. 大部分的应用不会直接使用 JDBC,而是使用 ORM,技术栈较深,导致抽象泄露问题更加严重。

SimpleHBase 的设计理念为:贴近 HBase 的 ORM 设计,简化 HBase 之上的 Java app 开发。

该理念的优点如下:

  1. 设计紧贴 HBase 的逻辑模型,提供一站式 HBase ORM 解决方案。
  2. 减少程序员的代码开发量。
  3. 用户友好的 HBase 特征支持。

该理念的缺点如下:

1. 不兼容 SQL,有一定的学习成本。

SimpleHBase 和 Phoenix 的技术栈如下所示。

类型转换

Phoenix 支持如下类型,目前不支持自定义类型。每种类型的序列化 (转化为 bytes 保存到 HBase 中) 和反序列化为固定的方式。

INTEGER

UNSIGNED_INT

BIGINT

UNSIGNED_LONG

TINYINT

UNSIGNED_TINYINT

SMALLINT

UNSIGNED_SMALLINT

FLOAT

UNSIGNED_FLOAT

DOUBLE

UNSIGNED_DOUBLE

DECIMAL

BOOLEAN

TIME

DATE

TIMESTAMP

UNSIGNED_TIME

UNSIGNED_DATE

UNSIGNED_TIMESTAMP

VARCHAR

CHAR

BINARY

VARBINARY

SimpleHBase 支持如下类型。每种类型的序列化和反序列化方式,可以使用 SimpleHBas 提供的默认方式,也可以用户自定义。

boolean

byte

short

char

int

long

float

double

String

Date

Enum

用户自定义类型:

通过 TypeHandler 支持自定义类型扩展。

SimpleHBase 的 rowkey 和类型映射如下:

RowKey 支持

Phoenix 把 rowkey 内化为 table 的 PRIMARY KEY 处理。

CREATE TABLE IF NOT EXISTS us_population ( state CHAR(2) NOT NULL, city VARCHAR NOT NULL, population BIGINT CONSTRAINT my_pk PRIMARY KEY (state, city));

同时,Phoenix 的 Salted Tables 技术可以解决 region server 的热点问题。

SimpleHBase 认为 rowkey 的设计是 HBase 应用设计中最重要的一环。因此,对于 RowKey 单独建模,给用户提供较高的灵活性。实际上,对于 HBase 而言,任何可以转换为 bytes 的对象都可以做为 rowkey 使用。

简单场景支持

对于简单的 put,scan,delete 场景。

Phoenix 提供的方案为:

Java app -> ORM(可选) -> SQL -> phoenix -> HBase

SimpleHBase 提供的方案为:

Java app -> SimpleHBase-> HBase

无需 SQL 这一层,直接用类似如下代码即可实现。

simpleHbaseClient.putObject(new PersonRowKey(1), person);

Person result = simpleHbaseClient.findObject(new PersonRowKey(1),

Person.class);

简单 SQL 支持

Phoenix 做为 HBase 上面的 SQL 封装,这块的功能比较丰富。SimpleHBase 提供 SQL-Like 方式的查询。支持常见的简单查询场景。目前,SimpleHBase 提供的运算符如下:

lessequal

less

greaterequal

greater

notequal

equal

notmatch

match

in

notin

between

notbetween

isnull

Isnotnull

Ismissing

isnotmissing

and

or

()

复杂 SQL 支持

对于 group by, join 等较为复杂的 SQL 语法,Phoenix 支持,SimpleHBase 目前不支持。

动态 SQL 支持

动态查询可以避免应用代码中大量 if-else 之类的判断,拼接查询条件,提高代码质量。

Phoenix 的方案:

引入其他 ORM 框架 (如 hibernate 或 mybatis)。

Simplehbase 的方案:

类似 mybatis,提供动态查询能力。

目前 simplehbase 提供的动态查询标签如下:

isNull

isNotNull

isEmpty

isNotEmpty

isPropertyAvailable

isNotPropertyAvailable

isEqual

isNotEqual

isGreaterThan

isGreaterEqual

isLessThan

isLessEqual

Dynamic

HBase 时间戳和多版本支持

Phoenix 方案:

时间戳,由 HBase 管理,或在 connection 建立时指定一个时间戳,该 connection 上所有操作就是基于该时间戳。

不支持多版本,只能支持最新值。

Simplehbase 方案:

时间戳可以由 HBase 管理,或者由应用自行指定。版本数,可以选择最新版本,或者多版本支持,由应用指定。

rowkey

timestamp

name

Age

key1

t4

d

复制代码
key1

t3

c

3

key1

t2

复制代码
2

key1

t1

a

1

假设 name 和 age 映射为一个 Person 类型对象。SimpleHBase 支持如下映射方式:

  • 一个 rowkey 对应的所有最新值映射为一个 object。
    例:该数据被映射为 Person(name=d,age=3)。

  • 一个 rowkey 对应的时间戳范围内 (由用户指定) 的最新值映射为一个 object (Phoenix 只提供一个时间戳,而不是时间戳范围) 。
    例:指定时间戳范围 (左闭右开) 为 [t1,t3),该数据被映射为 Person(name=a,age=2)。 - 一个 rowkey 对应的所有值,以时间戳为维度,映射成一个 object list。
    例:指定 maxVersion(控制最大版本数) 为 4, 该数据被映射为一个 person 的列表,按照时间戳排序。 ```

    Person(name=d)
    Person(name=c,age=3)
    Person(age=2)
    Person(name=a,age=1)

复制代码
- 一个 rowkey 对应的时间戳范围内的所有值,以时间戳为维度,映射成一个 object list
例:指定时间戳范围为 \[t1,t3),maxVersion 为 4, 该数据被映射为一个 person 的列表,按照时间戳排序。 ```
Person(age=2)
Person(name=a,age=1)

其他

SimpleHBase 中包含了一些 HBase 特性的封装或增强。

如:

SimpleHBase 支持批量 put 操作,以提升性能。

HTable 的 autoflush 设置为 false,同时,有一个线程定期做 flush。既可以提高应用的吞吐能力,也可以有一定的 flush 保证。

小结

目前,SimpleHBase 已经在阿里的多个项目中得到应用。从设计理念看,SimpleHBase 并不是 Phoenix 的一个重复轮子,而是有着自己清晰的目标。即贴近 HBase 的 ORM 设计,简化 HBase 之上的 Java app 开发。同时,又可以把 HBase 的一些核心概念暴露给用户,方便用户对 HBase 特性的使用。

关于作者:

张信之,支付宝高级工程师,目前负责支付宝消费数据组,西安交通大学计算机科学与技术专业硕士。兴趣广泛,近期工作聚焦在 HBase ORM 框架 Simplehbase 上。


感谢谢良,梁堰波对本文的审校,包研对本文的策划。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2014-06-05 23:235444

评论

发布
暂无评论
发现更多内容

4.0 功能抢先看 | 读懂一个项目的研发效能 之 项目质量表现

思码逸研发效能

研发效能 项目质量

js事件循环与macro&micro任务队列-前端面试进阶

loveX001

JavaScript 前端

Cloud Studio 内核升级之持续优化

CODING DevOps

DevOps 软件工程 Cloud Studio 云端IDE

软件测试 | 认识性能测试

测吧(北京)科技有限公司

测试

基于Jmeter 的接口自动化测试实践探讨

jackwang

“数据进化论”2023数智科技大会官宣:从看、用到智能,与客户共进化

奇点云

发布会 奇点云 数据云 数智科技大会

技术同学如何快速熟悉业务

老张

系统架构 业务

文档还能这么写?GreptimePlay 邀你免费玩!

Greptime 格睿科技

数据库 云原生 时序数据库 Playground

结合实例,解读华为云数字工厂信息模型配置器

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 5 月 PK 榜

软件测试 | 开源Web性能测试

测吧(北京)科技有限公司

测试

共享电动车生产批发厂家怎么找

共享电单车厂家

共享电动车厂家 共享电单车厂商 共享电动车生产

软件测试 |JMeter服务器模式、重置JMeter命令

测吧(北京)科技有限公司

测试

“中国法研杯”司法人工智能挑战赛:基于UTC的多标签/层次分类小样本文本应用,Macro F1提升13%+

汀丶人工智能

人工智能 nlp 文本分类 小样本学习

Midjourney|文心一格prompt教程[技巧篇]:生成多样性、增加艺术风格、图片二次修改、渐进优化、权重、灯光设置等17个技巧等你来学

汀丶人工智能

人工智能 AI绘画 MidJourney prompt learning

顶会ICSE-2023发布LIBRO技术,缺陷自动重现率达33%

华为云开发者联盟

人工智能 华为云 大模型 华为云开发者联盟 企业号 5 月 PK 榜

mate云端元宇宙系统智能合约链游开发技术

Congge420

区块链

智能合约DAPP挖矿系统开发应用

Congge420

区块链

性价比提升15%,阿里云发布第八代企业级计算实例g8a和性能增强型实例g8ae

云布道师

社招前端二面必会react面试题及答案

beifeng1996

前端 React

上海丨阿里云 Serverless 技术实战营邀你来玩!

阿里巴巴云原生

阿里云 Serverless 云原生

软件测试 | 如何运行JMeter

测吧(北京)科技有限公司

测试

更高效便捷的开发体验——Cloud Studio 编辑器命令行工具

CODING DevOps

软件工程 研发效能 Cloud Studio 在线编辑

airasia Superapp × HMS Core:便捷出行,悦享全程

HMS Core

HMS Core

NFT盲盒卡牌游戏系统开发搭建

Congge420

区块链

2023我的前端面试小结

loveX001

JavaScript 前端

PAG动效框架源码笔记 (三)播放流程

olinone

ios android 特效

软件测试 | JMeter

测吧(北京)科技有限公司

测试

元宇宙链游系统开发搭建技术

Congge420

区块链

TIDB General Log抓取分析神器

TiDB 社区干货传送门

管理与运维 故障排查/诊断

面试官让你说说react状态管理?

beifeng1996

前端 React

软件测试 | 配置JMeter

测吧(北京)科技有限公司

测试

HBase ORM SimpleHBase设计_大数据_张信之_InfoQ精选文章