Hadoop
Hadoop生态系统经过多年的发展,俨然已经成为大数据平台的事实标准。

ClickHouse 在京东能源管理平台的应用实践
ClickHouse 是一款面向大数据场景下的 OLAP 数据库,相比于传统的基于 Hadoop 生态圈的 OLAP 大数据分析系统,ClickHouse 具有极致的查询性能、轻量级的架构设计及维护简单等优势。


Hadoop 的 MapReduce 到底有什么问题?
作为 Hadoop 里重要的分布式计算组件 MapReduce 到底存在什么样的问题,大家纷纷都转投其他技术栈?我们来一起探个究竟。本文会先详细解析一下整个 MapReduce 的过程,编程方式,然后再去分析一下存在的问题和其中可以借鉴的点。

深度探索 Hadoop 分布式文件系统(HDFS)数据读取流程
Hadoop 分布式文件系统(HDFS)是 Hadoop 大数据生态最底层的数据存储设施。因其具备了海量数据分布式存储能力,针对不同批处理业务的大吞吐数据计算承载力,使其综合复杂度要远远高于其他数据存储系统。

Zookeeper 浅谈
通常我们在使用 dubbo 的时候会建议使用 zookeeper 作为注册中心,也可以用 redis,eureka 作为注册中心,当然我只用过 zookeeper,dubbo 相当于搭载一个服务框架,zookeeper 则是服务注册的中心。

如何快速打造高稳定千亿级别对象存储平台 | QCon
快手每天都有海量的视频数据上传存储,到目前为止所有的视频以及衍生数据总量更是数量庞大,且视频本身有大有小,如何存储这些数据将是一个颇具挑战性的问题。

数据湖与数据仓库的新未来:阿里提出湖仓一体架构
近几年,随着数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论始终不断。数据仓库和数据湖的区别到底是什么?本文作者来自阿里巴巴计算平台部门,在深度参与阿里巴巴大数据 / 数据中台领域建设之后,将对数据湖和数据仓库的来龙去脉进行深入剖析,阐述两者融合演进的新方向——湖仓一体。



Apple Siri @ Spark, FoundationDB, Hadoop and HBase | ArchSummit
演讲:Apple Siri @ Spark, FoundationDB, Hadoop and HBase(英文演讲)

大数据技术发展 (二):Hadoop 技术生态圈的发展
Hadoop 是大数据领域中最重要的一门技术,我们很多人知道它是发源于 google 的"三驾马车",实际上真的是这样的吗?这篇文章一探 Hadoop 技术的起源。








快手大数据架构演进实录
快手大数据架构团队组建于 2017 年,短短三年间已搭建起一个万亿级规模的大数据架构体系。快手的大数据架构是怎样演进的?在春晚红包活动中遇到了哪些挑战,又是如何应对的?在 Hadoop 的应用上,快手有何经验可供业界参考?


大数据公司 LiveRamp 上云记(三):如何在吞吐量有限的情况下处理数据复制
大数据公司 LiveRamp 公司在 2019 年逐步把它们迁移到了谷歌云计算平台,本系列文章将从技术角度深入地探讨这次迁移之旅。


Apache Hadoop 机器学习引擎 Submarine 及生态 | QCon
中。进行模型的在线推测和模型增量更新。的生态系统。中进行离线模型训练。项目主干分支,让你可以零开发成本的搭建自己的机器学习开发平台。




Hadoop or TDengine,如何做物联网大数据平台的选型?
本文介绍物联网大数据处理中可能遇到的问题,分析 TDengine、InfluxDB、ClickHouse、Hadoop、MySQL 等系统在处理时序数据时的优缺点。


