Hadoop

关注
收录了Hadoop频道下的 95 篇内容
Hadoop生态系统经过多年的发展,俨然已经成为大数据平台的事实标准。
  • 全部
  • 文章
  • 视频
  • 电子书
Hadoop 生态里,为什么 Hive 活下来了?
Hadoop 生态里,为什么 Hive 活下来了?

Apache Hive 能在下一轮“淘汰”中幸存下来吗?

成功从 Hadoop 迁移到 Lakehouse 架构的 5 个关键步骤
成功从 Hadoop 迁移到 Lakehouse 架构的 5 个关键步骤

从 Hadoop 迁移到基于云的现代架构(比如 Lakehouse 架构)的决定是业务决策,而非技术决策。我们在之前的文章中探讨了每一个组织都必须重新评估他们与 Hadoop 的关系的原因。本文中,我们将特别关注实际的迁移过程本身。你将学习成功迁移的关键步骤,以及 Lakehouse 架构在激发下一轮数据驱动创新中所扮演的角色。

Uber是如何低成本构建开源大数据平台的?
Uber 是如何低成本构建开源大数据平台的?

当大数据成为我们最大的运维支出项目之一后,我们启动了一项降低数据平台成本的计划。

基于阿里云部署的CDP产品详情基于阿里云部署的CDP产品详情
基于阿里云部署的 CDP 产品详情

基于阿里云部署的 CDP 是部署在阿里云 ECS 集群上的集成的分析和数据管理平台,在该平台上提供广泛的数据分析和人工智能功能以及安全的用户访问和数据治理功能。

伴鱼数仓演进
伴鱼数仓演进

伴鱼离线数仓建立,与伴鱼的业务一起快速发展,从一条业务线,到多条业务线。在演进的过程中,有很多总结和沉淀的内容。本篇文章主要介绍伴鱼离线数据仓库的发展历史,在发展过程中遇到的各种问题,以及针对问题的解决方案。

十年 Hadoop 退居幕后,数据云横空出世
十年 Hadoop 退居幕后,数据云横空出世

十年 Hadoop 退居幕后,云时代下的数据平台有了新的探索方向。

架构师(2021年7月)架构师(2021年7月)
架构师(2021 年 7 月)

本期推荐内容:京东云靠什么撑起 618 大促?后 Hadoop 时代,大数据分析路在何方?Data Mesh,数据架构的下一个变革!

明略千亿大数据处理能力是如何炼成的?
明略千亿大数据处理能力是如何炼成的?

网购、叫车、订外卖、看电影...... 移动互联网各种场景的背后都离不开大数据技术。经过十几年的发展,大数据技术已经成为互联网企业的基础设施。

11天里13个Apache开源项目宣布退休,Hadoop的时代结束了
11 天里 13 个 Apache 开源项目宣布退休,Hadoop 的时代结束了

Hadoop 和大数据的黄金年代已经正式结束。

Hadoop 的“遗产”
Hadoop 的“遗产”

宣布 “Hadoop 已死”已成为一种时尚。但,Hadoop 让企业失去了对大数据的恐惧。

大数据技术升级脉络及认知陷阱 | InfoQ 大咖说
大数据技术升级脉络及认知陷阱 | InfoQ 大咖说

本期,网易数据科学中心总监余利华现身大咖说,他将结合自身在大数据领域的从业经历,分析大数据技术应用逐步升级的脉络,解读背后的业务需求与认知陷阱。

ClickHouse在京东能源管理平台的应用实践
ClickHouse 在京东能源管理平台的应用实践

ClickHouse 是一款面向大数据场景下的 OLAP 数据库,相比于传统的基于 Hadoop 生态圈的 OLAP 大数据分析系统,ClickHouse 具有极致的查询性能、轻量级的架构设计及维护简单等优势。

Hadoop之HDFS 内部机制知多少?
Hadoop 之 HDFS 内部机制知多少?

探寻 Hadoop 里另外一个重要组件 HDFS 的架构和高可用相关机制

Hadoop的MapReduce到底有什么问题?
Hadoop 的 MapReduce 到底有什么问题?

作为 Hadoop 里重要的分布式计算组件 MapReduce 到底存在什么样的问题,大家纷纷都转投其他技术栈?我们来一起探个究竟。本文会先详细解析一下整个 MapReduce 的过程,编程方式,然后再去分析一下存在的问题和其中可以借鉴的点。

深度探索Hadoop分布式文件系统(HDFS)数据读取流程
深度探索 Hadoop 分布式文件系统(HDFS)数据读取流程

Hadoop 分布式文件系统(HDFS)是 Hadoop 大数据生态最底层的数据存储设施。因其具备了海量数据分布式存储能力,针对不同批处理业务的大吞吐数据计算承载力,使其综合复杂度要远远高于其他数据存储系统。

Zookeeper浅谈
Zookeeper 浅谈

通常我们在使用 dubbo 的时候会建议使用 zookeeper 作为注册中心,也可以用 redis,eureka 作为注册中心,当然我只用过 zookeeper,dubbo 相当于搭载一个服务框架,zookeeper 则是服务注册的中心。

如何快速打造高稳定千亿级别对象存储平台 | QCon
如何快速打造高稳定千亿级别对象存储平台 | QCon

快手每天都有海量的视频数据上传存储,到目前为止所有的视频以及衍生数据总量更是数量庞大,且视频本身有大有小,如何存储这些数据将是一个颇具挑战性的问题。

数据湖与数据仓库的新未来:阿里提出湖仓一体架构
数据湖与数据仓库的新未来:阿里提出湖仓一体架构

近几年,随着数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论始终不断。数据仓库和数据湖的区别到底是什么?本文作者来自阿里巴巴计算平台部门,在深度参与阿里巴巴大数据 / 数据中台领域建设之后,将对数据湖和数据仓库的来龙去脉进行深入剖析,阐述两者融合演进的新方向——湖仓一体。

从 Hadoop 到云原生(2):Kyligence 在云原生巨浪中的思考
从 Hadoop 到云原生(2):Kyligence 在云原生巨浪中的思考

云原生的巨浪正在席卷全球的软件产业,包括开源软件和商业软件。

复盘领英Hadoop数据丢失事故,我们得到的血泪教训
复盘领英 Hadoop 数据丢失事故,我们得到的血泪教训

希望我们从大数据生态系统重大事故中学到的东西,也能给各位带来一点启示。

Apple Siri @ Spark, FoundationDB, Hadoop and HBase | ArchSummit
Apple Siri @ Spark, FoundationDB, Hadoop and HBase | ArchSummit

演讲:Apple Siri @ Spark, FoundationDB, Hadoop and HBase(英文演讲)

大数据技术发展(二):Hadoop 技术生态圈的发展
大数据技术发展 (二):Hadoop 技术生态圈的发展

Hadoop 是大数据领域中最重要的一门技术,我们很多人知道它是发源于 google 的"三驾马车",实际上真的是这样的吗?这篇文章一探 Hadoop 技术的起源。

Apache Hadoop 3.3.0发布,正式支持腾讯云对象存储COS
Apache Hadoop 3.3.0 发布,正式支持腾讯云对象存储 COS

大数据开发者将可以无缝使用中国云存储

监控大规模Hadoop集群,Prometheus完胜Zabbix?
监控大规模 Hadoop 集群,Prometheus 完胜 Zabbix?

本文介绍利用 Prometheus 为核心来构建大数据集群监控平台的经验。

Hadoop 怎么了,大数据路在何方
Hadoop 怎么了,大数据路在何方

本文以 Hadoop 的盛衰变化为楔子聊下大数据分析的发展现状和未来趋势。

Zookeeper选举机制
Zookeeper 选举机制

通过源码的分析,了解 zookeeper 作为分布式协调服务,在集群部署下的选举流程

基于Hadoop的58同城离线计算平台设计与实践
基于 Hadoop 的 58 同城离线计算平台设计与实践

本文介绍大数据平台离线计算和探讨 58 在离线计算平台建设实践的思路、方案和问题解决之道。

被仰望和遗忘过的Cloudera是否能王者归来?
被仰望和遗忘过的 Cloudera 是否能王者归来?

本文讲述了 Cloudera 的故事:曾被仰望,后被遗忘,光荣不再,王者能否归来。

EB 级 HDFS 集群磁带存储资源池的建设实践
EB 级 HDFS 集群磁带存储资源池的建设实践

本文主要介绍 HDFS 磁带存储资源池建设的实践,拓展 HDFS 异构存储到磁带存储介质,强化了 HDFS 低成本海量数据存储能力。

    SES:安全的 ECMAScript
    SES:安全的 ECMAScript

    Jack Works | Sujitech 前端工程师

    立即下载
    大型传统企业基于云计算的数字化转型实践

    陈余捷 | 华润集团 华润云副总经理

    立即下载
    收获极致查询体验——字节跳动联邦 OLAP 平台 ByteQuery 架构设计

    郭俊 | 字节跳动 数据引擎部门负责人

    立即下载