编者按：Hadoop于2006年1月28日诞生，至今已有10年，它改变了企业对数据的存储、处理和分析的过程，加速了大数据的发展，形成了自己的极其火爆的技术生态圈，并受到非常广泛的应用。在2016年Hadoop十岁生日之际，InfoQ策划了一个Hadoop热点系列文章，为大家梳理Hadoop这十年的变化，技术圈的生态状况，回顾以前，激励以后。本文整理自去年4月份的QCon大会演讲“以Hadoop为核心的大数据开放平台建设”。

作者 : 孙利兵

2016-04-25

8572

深入理解 Kafka Connect：转换器和序列化

这篇文章将告诉我们如何正确地使用消息的序列化格式，以及如何在Kafka Connect连接器中对其进行标准化。

作者 : Robin Moffatt 译者: 薛命灯

2018-12-06

2981

浅析 Hadoop 文件格式

Hadoop 作为MR 的开源实现，一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势。不过，MPP数据库社区也一直批评Hadoop由于文件格式并非为特定目的而建，因此序列化和反序列化的成本过高。本文介绍Hadoop目前已有的几种文件格式，分析其特点、开销及使用场景。希望加深读者对Hadoop文件格式及其影响性能的因素的理解。

作者 : 江志伟

2012-05-28

25767

序列化和反序列化

序列化和反序列化几乎是工程师们每天都要面对的事情，但是要精确掌握这两个概念并不容易：一方面，它们往往作为框架的一部分出现而湮没在框架之中；另一方面，它们会以其他更容易理解的概念出现，例如加密、持久化。然而，序列化和反序列化的选型却是系统设计或重构一个重要的环节，在分布式、大数据量系统设计里面更为显著。恰当的序列化协议不仅可以提高系统的通用性、强健性、安全性、优化系统性能，而且会让系统更加易于调试、便于扩展。本文从多个角度去分析和讲解“序列化和反序列化”，并对比了当前流行的几种序列化协议，期望对读者做序列化选型有所帮助。

作者 : 刘丁

2015-05-07

38792

基于 Kafka 技术栈构建和部署实时搜索引擎的实践

实现强大的搜索能力——从设计决策到幕后的一切

作者 : Sahil Malhotra 译者: 孙简一策划: 蔡芳芳

2021-01-29

Flink 自定义 Avro 序列化 (Source/Sink) 到 kafka 中

最近一直在研究如果提高kafka中读取效率，之前一直使用字符串的方式将数据写入到kafka中。当数据将特别大的时候发现效率不是很好，偶然之间接触到了Avro序列化，发现kafka也是支持Avro的方式于是就有了本篇文章。

大数据

flink

hadoop

大数据老哥

2021-01-09

Yelp 的实时流技术之三：不止是模式存储服务的 Schematizer

这是关于Yelp的实时流数据基础设施系列文章的第三篇。这个系列会深度讲解我们如何用“确保只有一次”的方式把MySQL数据库中的改动实时地以流的方式传输出去，我们如何自动跟踪表模式变化，如何处理和转换流，以及最终如何把这些数据存储到Redshift或Salesforce之类的数据仓库中去。这一篇主要介绍Schematizer，Yelp的模式存储服务。

作者 : Chia-Chi Lin 译者: 足下

2016-09-22

1702

如何基于 Kafka 构建一个关系型数据库

在这篇文章里，我将分享如何通过扩展KCache来实现一个全功能的关系型数据库，我把这个数据库叫作KarelDB。

作者 : rayokota 译者: 无明

2019-10-08

2028

Kafka 实践：到底该不该把不同类型的消息放在同一个主题中

如果你使用了像Kafka这样的流式处理平台，就要搞清楚一件事情：你需要用到哪些主题？特别是如果你要将一堆不同的事件作为消息发布到Kafka，你是要将它们放在同一个主题中，还是将它们拆分到不同的主题中？

作者 : Martin Kleppmann 译者: 无明

2018-08-18

3927

一文解析 Apache Avro 数据

摘要：本文将演示如果序列化生成avro数据，并使用FlinkSQL进行解析。

序列化

flink sql

Apache Avro

反序列

Avro

华为云开发者联盟

2021-12-31

使用 Amazon EMR 和 Apache Hudi 插入、更新、删除 S3 上的数据

将数据存储在 Amazon S3 中会在扩展、可靠性和成本效益方面提供很多优势。

作者 : 亚马逊云科技 (Amazon Web Services）

2019-11-28

111

30 岁文转码：从哲学家变成知名软件项目核心开发

“曾经的我对技术一窍不通，但现在我已经掌握编程能力、开始努力争取自己的计算自主权。虽然还有很长的路要走，但我至少已经迈开了步伐。”

作者 : Protesilaos Stavrou 译者: 核子可乐策划: 罗燕珊

2022-03-28

Uber 推出数据湖集成神器 DBEvents，支持 MySQL、Cassandra 等

作为 Uber 其他软件（例如Marmaray和Hudi）的补充，DBEvents 从 MySQL、Apache Cassandra 和 Schemaless 中获取数据，以更新我们的 Hadoop 数据湖。

作者 : Ovais TariqNishith Agarwal 译者: 王妙琼

2019-03-26

8197

使用 Apache Kafka 和 KSQL 实现流处理普及化——第二部分

在本文中，作者Robin Moffatt展示了如何借助一个电商实例应用程序使用Apache Kafka和KSQL构建数据集成和处理应用程序。本文讨论了三个应用场景：客户操作、操作仪表板、在线分析。

作者 : Robin Moffatt 译者: 谢丽

2018-09-20

2636

用 Kiji 构建实时、个性化推荐系统

现在网上到处都有推荐。亚马逊等主流电子商务网站根据它们的页面属性以各种形式向用户推荐产品。Mint.com之类的财务规划网站为用户提供很多建议，比如向用户推荐他们可能想要办理的信用卡，可以提供更好利率的银行。谷歌根据用户搜索历史记录的信息优化搜索结果，找到相关性更高的结果。

作者 : Jon Natkins 译者: 马连浩

2014-04-03

15483

Yelp 的实时流技术之二：将 MySQL 表数据变更实时流到 Kafka 中

这是关于Yelp的实时流数据基础设施系列文章的第二篇。这个系列会深度讲解我们如何用“确保只有一次”的方式把MySQL数据库中的改动实时地以流的方式传输出去，我们如何自动跟踪表模式变化，如何处理和转换流，以及最终如何把这些数据存储到Redshift或Salesforce之类的数据仓库中去。这一篇中介绍的是MySQLStreamer，它从MySQL二进制文件中提取所有的数据变更操作事件，再把这些事件发布到Kafka中。

作者 : Prem Santosh Udaya Shankar 译者: 足下

2016-09-11

10545

创作场景

avro

使用 Apache Avro

Microsoft Avro 介绍

LinkedIn 开源 Avro2TF: TensorFlow 的开源特性转换引擎

通过与模式注册表集成，AWS Lambda 获得对 Kafka 事件的原生 Avro 和 Protobuf 支持

大数据开放平台搭建，难点何在？