写点什么

分析型嵌入式键值数据库 hamsterdb

  • 2014-08-15
  • 本文字数:1236 字

    阅读完需:约 4 分钟

近日, Christoph Rupp 在 highscalability.com 上发表了一篇文章,介绍由他创建的分析型嵌入式键值数据库 hamsterdb 。它用 C/C++ 编写,是一个速度非常快的轻量级 NoSQL 数据库引擎,支持事务、数据库游标、内存数据库和远程网络访问,类似谷歌的 leveldb 和甲骨文的 BerkeleyDB。

据作者介绍,hamsterdb 并不是细分市场上的一个新晋竞争者。事实上,它已经出现超过 9 年了。在这段时间里,它发展非常快,其重点已经从单纯的键值存储转向了分析型数据库,提供类似列式存储数据库的功能。

hamsterdb 是单线程、非分布式的,用户通常直接将它链接到他们自己的应用程序中。它提供了独特的事务实现以及其它独特的功能,非常适合于分析型工作负载。它可以在本地 C/C++ 中使用,也有面向 Erlang、Python、Java、 .NET,甚至是 Ada 的绑定。它被用在嵌入式设备和本地应用程序中,也可以为云实例提供缓存和索引服务,已经有数以百万计的部署。

hamsterdb 有一个独特的功能,它能识别模式信息。大多数键值存储并不关心键的类型,而它支持两种类型的键:二进制键和数值键。hamsterdb 数据库是 BTree 索引,既可以存储在文件中,也可以存储在内存中。而 BTree 的实现是它成为分析型数据库的关键。其实现方式非常紧凑,减少了 I/O,而且可以更好的利用 CPU 缓存。

另外,hamsterdb 有与 SQL 命令 COUNT、COUNT DISTINCT、SUM 和 AVERAGE 等价的 API,并支持可变长度的键,允许键重复,以及支持 read-committed 隔离级别的 ACID 事务。

按照 Rupp 的说法,hamsterdb 最强力的特性是可测试性。数据库的根本——甚至比性能都重要——就是不应该丢失数据。在 9 年的开发过程中,他不断地重写部分代码或者尝试新的想法,但高测试覆盖率给了他自信,认为这些更改不会破坏任何东西。他有大约 1800 个单元测试和 35000 个验收测试,以及一组模拟崩溃的测试,用于测试 hamsterdb 的可恢复性。这些测试都是高度自动化的。

Rupp 还介绍了 hamsterdb 的商业版本 hamsterdb pro。该版本提供了针对键、记录、日志的重量级压缩,AES 加密,及针对叶节点查找的 SIMD 优化。还有更多的压缩算法正在进行或规划中。

在文章的最后,Rupp 用谷歌的基准测试将 hamster 2.1.8 与 leveldb 1.15 作了性能对比。他得出了下面的结论:

对于随机读,hamsterdb 性能要好于 leveldb。对于随机写的情况,只要数据量不是太大,hamsterdb 就更快。而从 1 千万键及以上开始,hamsterdb 就会遭受 BTree 数据库的传统问题:大量的非序列性 I/O 和高磁盘寻道延迟。

作者认为,这可以很好地说明 hamsterdb 的分析能力。尤其是,sum 和 count 运算都可以很好地扩展。序列性插入和扫描也是其亮点,不管数据量多大,它都可以非常快。

有兴趣的读者可以下载查看全部的测试结果,以及从GitHub 上下载 hamsterdb 的源代码


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-08-15 03:192603
用户头像

发布了 256 篇内容, 共 96.5 次阅读, 收获喜欢 12 次。

关注

评论

发布
暂无评论
发现更多内容

NodeJS 5分钟 连接MySQL 增删改查 🥇

德育处主任

node.js MySQL 6月月更

如何在 Vue 项目中,通过点击 DOM 自动定位VSCode中的代码行?

vivo互联网技术

Vue 前端 vscode vite webpack

低代码实现探索(四十二)数据+方法+组件

零道云-混合式低代码平台

ZooKeeper进阶(二):ZooKeeper的运行

No Silver Bullet

zookeeper 6月月更

【Python技能树共建】scrapy 上手篇

梦想橡皮擦

Python 爬虫 Python爬虫 6月月更

C#入门系列(十四) -- 结构体应用

陈言必行

C# 6月月更

从社恐到社牛,多亏了这款私人学习成长暗器!

博文视点Broadview

实战模拟│揭秘为啥年会你抽不到特等奖

随机 概率 抽奖系统 6月月更

医疗机构如何利用云原生加速智慧医院建设?

York

云原生 系统架构 智慧医疗 医疗信息化 互联网医疗

【高并发】高并发环境下构建缓存服务需要注意哪些问题?

冰河

并发编程 多线程 高并发 异步编程 6月月更

如何在 Django 中使用 MVT 创建基本项目?

海拥(haiyong.site)

django 6月月更

java培训 | Mybatis的特性

@零度

mybatis JAVA开发

InfoQ 极客传媒 15 周年庆征文 | Kettle实现ES到ES循环增量抽取

写程序的小王叔叔

架构 kettle ELK Stack InfoQ极客传媒15周年庆

EasyNLP带你玩转CLIP图文检索

阿里云大数据AI技术

数据挖掘 存储 算法框架/工具 机器学习/深度学习

芯动科技加入龙蜥社区,创新驱动生态发展

OpenAnolis小助手

操作系统 芯片 龙蜥社区 CLA 芯动科技

Flink CDC 在大健云仓的实践

Apache Flink

大数据 flink 编程 流计算 实时计算

如何使用 API 的方式消费 SAP Commerce Cloud 的订单服务

汪子熙

node.js SAP commerce 电商云 6月月更

NLP论文领读|缺少有标注的数据集怎么训练文本检索模型?来看看 LaPraDoR怎么做的吧

澜舟孟子开源社区

人工智能 自然语言处理 神经网络 深度学习 nlp

文档管理系统应该具备哪些功能?

小炮

Push还是Pull,这是个问题么?

MatrixOrigin

push Pull MatrixOrigin MatrixOne 数据库·

直播倒计时1天!天翼云HPC解决方案助力企业腾飞

天翼云开发者社区

签约喜报 | 月财生态签约旺链科技,区块链溯源让有机产品“有迹可循”

旺链科技

区块链 产业区块链 食品溯源 有机食品

OpenHarmony 官网文档有哪些上新?上篇:应用开发文档上新

OpenHarmony开发者

OpenHarmony

今天 3 点!Intel Arch 和高性能存储技术两大 SIG 核心成员在线分享|第 21-22 期

OpenAnolis小助手

容器 镜像 直播 内核 龙蜥大讲堂

了解 Session、LocatStorage、Cache-Control、ETag

CRMEB

Linux开发_介绍目录编程、标准文件编程、Linux系统文件接口编程、GDB调试

DS小龙哥

6月月更

交友app源码未来的发展趋势是什么?

开源直播系统源码

百问百答第42期:应用性能探针监测原理-.net

博睿数据

智能运维 博睿数据 性能监测

面试官神级问题:DNS服务器是否可以加快我们的网络访问速度?

wljslmz

服务器 DNS 6月月更

新闻速递 | MobTech受邀参与华为开发者联盟沙龙,谈数据智能撬动增长

MobTech袤博科技

移动互联网 运营 精细化运营 华为开发者联盟 HDG

小程序IDE,快速配置让App具备“一码通”能力

Speedoooo

ide 二维码 一码通

分析型嵌入式键值数据库hamsterdb_数据库_马德奎_InfoQ精选文章