Netflix推出Hollow，处理内存数据集的Java库_Java_Michael Redlich



 写点什么

Netflix 最近推出了 Hollow ，一款 Java 库和工具包，旨在有效缓存不属于“大数据”的数据集。这些数据集可能是电子商务和搜索引擎的元数据，或者是 Netflix 电影和电视节目的元数据。处理这种数据集的传统方法包括数据存储或串行化，但这可能会有可靠性和延迟问题。Hollow 的入门指南中总结了核心概念和命名方法：

Hollow 管理由单个 _ 生产者 _ 构建的数据集，并向一个或多个 _ 消费者 _ 传送以用于只读访问。数据集会随着时间而改变。改变的数据集的时间线可以分为离散的 _ 数据状态 _，每个状态都是那个特定时间点数据的完整快照。

生产者和消费者通过在数据状态之间转换的 _ 状态引擎 _ 来处理数据集。生产者使用 _ 写状态引擎 _，而消费者使用 _ 读状态引擎 _。

Hollow 取代了 Netflix 原先的内存数据集框架 Zeno 。数据集现在用紧凑的、固定长度的、强类型的数据编码表示。这种编码最小化了数据集占用的空间，并将编码记录“打包在 JVM 堆上合并的可重用内存条中，以避免影响繁忙的服务器上的 GC 行为。”

入门
要开始使用 Hollow 示例，请参考以下 POJO：

复制代码

 public class Movie {
long id;
String title;
int releaseYear;
 
public Movie(long id,String title,int releaseYear) {
   this.id = id;
   this.title = title;
   this.releaseYear = releaseYear;
   }
}

上述 POJO 上简单的数据集可以这样填充：

复制代码

 List<Movie> movies = Arrays.asList(
new Movie(1,"The Matrix",1999),
new Movie(2,"Beasts of No Nation",2015),
new Movie(3,"Goodfellas",1990),
new Movie(4,"Inception",2010)
);

Hollow 将这样的 movies 列表转换为新的编码形式，如下所示：

有关编码的更多详细信息，请参阅 Hollow 网站的高级主题章节。

生产者
生产者的第一个示例发布了数据集（本例中的电影）的初始数据状态，并通知消费者在哪里找到该数据集。对数据集的后续更改会系统地发布并传送给消费者。

生产者使用 HollowWriteStateEngine 作为数据集的句柄：

复制代码

 HollowWriteStateEngine writeEngine = new HollowWriteStateEngine();

HollowObjectMapper 填充 HollowWriteStateEngine：

复制代码

 HollowObjectMapper objectMapper = new HollowObjectMapper(writeEngine);
for(Movie movie : movies) {
   objectMapper.addObject(movie);
   }

HollowObjectMapper 是线程安全的，也可以并行执行。

生产者将数据集（也称 blob）写入定义的输出流：

复制代码

 OutputStream os = new BufferedOutputStream(new FileOutputStream(snapshotFile));
HollowBlobWriter writer = new HollowBlobWriter(writeEngine);
writer.writeSnapshot(os);

为消费者生成 API
客户端 API 基于数据模型生成必要的 Java 文件，并且必须在写入初始的消费者源代码前执行：

复制代码

 HollowAPIGenerator codeGenerator = new HollowAPIGenerator(
"MovieAPI", // a name for the API
"org.redlich.hollow.consumer.api.generated", // the path for generated API files
stateEngine); // the state engine
codeGenerator.generateFiles(apiCodeFolder);

消费者
一旦通知消费者已发布的数据集，消费者使用 HollowWriteReadEngine 作为数据集的句柄：

复制代码

 HollowReadStateEngine readEngine = new HollowReadStateEngine();

HollowBlobReader 将 blob 从生产者消费到 HollowReadStateEngine：

复制代码

 HollowBlobReader reader = new HollowBlobReader(readEngine);
InputStream is = new BufferedInputStream(new FileInputStream(snapshotFile));
reader.readSnapshot(is);

通过生成的 API 可以访问到数据集中的数据：

复制代码

 MovieAPI movieAPI = consumer.getAPI();
for(MovieHollow movie : movieAPI.getAllMovieHollow()) {
   System.out.println(movie._getId() + ", " +
   movie._getTitle()._getValue() + ", " +
   movie._getReleaseYear());
   }

这将打出结果输出：

复制代码

 1, "The Matrix", 1999
2, "Beasts of No Nation", 2015
3, "Goodfellas", 1990
4,"Inception", 2010

完整的 Hollow 项目可以在 GitHub 上找到。

InfoQ 最近和 Netflix 高级软件工程师及 Hollow 主要贡献者 Drew Koszewnik 进行了详细的访谈，讨论了Hollow 的具体实现细节。

查看英文原文： Netflix Introduces Hollow, a Java Library for Processing In-Memory Datasets

发布

暂无评论

创作场景

Netflix 推出 Hollow，处理内存数据集的 Java 库

评论

企评家，企业评价助力新三板企业健康发展

计算单链表的长度。

动态重定位需要由什么来实现？

玩转小程序压测

阿里云数字化安全生产平台 DPS V1.0 正式发布！

微服务架构设计实践

给定两个字符串s和t，判断这两个字符串中的字母是不是完全一样。

进程主要由哪几个部分组成？

阿里云发布企业云原生IT成本治理方案：五大能力加速企业 FinOps 进程

Plato Farm 的MARK 处于永远通缩，经济模型解析

LAXCUS分布式操作系统如何保障系统安全

使用任务管理软件有哪些好处，好用的任务管理软件有哪些？

面由 AI 生｜虚拟偶像“捏脸”技术解析

递归算法的三个定律是什么？

国厂自研的操作系统都有哪些？

浅谈MatrixOne如何用Go语言设计与实现高性能哈希表

企评家｜河南豫能控股股份有限公司的企业成长性报告简述

EventBridge 集成云服务实践

netty系列之:netty中常用的对象编码解码器

CPU散热器是电脑标配吗？

大咖说 X 对话开源｜论数据库人才发展战略

企业知识管理平台的作用及功能

加密算法有哪几种？

如何判断两个字符串是否互为回文？

中关村e谷为产业搭台：中关村论坛（空天专场）黑科技亮相现场

什么是“哈希算法”？

什么是满二叉树？

易周金融观点 | 个人养老金制度正式出炉；居民贷款延期还款政策密集落地

什么是完全二叉树？

易捷行云EasyStack 加入龙蜥社区，共同打造多样化算力创新云平台

企评家企业大数据，实现6种应用的场景

	public class Movie {
	long id;
	String title;
	int releaseYear;

	public Movie(long id,String title,int releaseYear) {
	this.id = id;
	this.title = title;
	this.releaseYear = releaseYear;
	}
	}

	List<Movie> movies = Arrays.asList(
	new Movie(1,"The Matrix",1999),
	new Movie(2,"Beasts of No Nation",2015),
	new Movie(3,"Goodfellas",1990),
	new Movie(4,"Inception",2010)
	);

	HollowWriteStateEngine writeEngine = new HollowWriteStateEngine();

	HollowObjectMapper objectMapper = new HollowObjectMapper(writeEngine);
	for(Movie movie : movies) {
	objectMapper.addObject(movie);
	}

	OutputStream os = new BufferedOutputStream(new FileOutputStream(snapshotFile));
	HollowBlobWriter writer = new HollowBlobWriter(writeEngine);
	writer.writeSnapshot(os);

	HollowAPIGenerator codeGenerator = new HollowAPIGenerator(
	"MovieAPI", // a name for the API
	"org.redlich.hollow.consumer.api.generated", // the path for generated API files
	stateEngine); // the state engine
	codeGenerator.generateFiles(apiCodeFolder);

	HollowReadStateEngine readEngine = new HollowReadStateEngine();

	HollowBlobReader reader = new HollowBlobReader(readEngine);
	InputStream is = new BufferedInputStream(new FileInputStream(snapshotFile));
	reader.readSnapshot(is);

	MovieAPI movieAPI = consumer.getAPI();
	for(MovieHollow movie : movieAPI.getAllMovieHollow()) {
	System.out.println(movie._getId() + ", " +
	movie._getTitle()._getValue() + ", " +
	movie._getReleaseYear());
	}

	1, "The Matrix", 1999
	2, "Beasts of No Nation", 2015
	3, "Goodfellas", 1990
	4,"Inception", 2010

创作场景

Netflix 推出 Hollow，处理内存数据集的 Java 库

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载