Hadoop

关注
收录了Hadoop频道下的 78 篇内容
Hadoop生态系统经过多年的发展,俨然已经成为大数据平台的事实标准。
  • 全部
  • 文章
  • 视频
  • 电子书
如何快速打造高稳定千亿级别对象存储平台 | QCon
如何快速打造高稳定千亿级别对象存储平台 | QCon

快手每天都有海量的视频数据上传存储,到目前为止所有的视频以及衍生数据总量更是数量庞大,且视频本身有大有小,如何存储这些数据将是一个颇具挑战性的问题。

数据湖与数据仓库的新未来:阿里提出湖仓一体架构
数据湖与数据仓库的新未来:阿里提出湖仓一体架构

近几年,随着数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论始终不断。数据仓库和数据湖的区别到底是什么?本文作者来自阿里巴巴计算平台部门,在深度参与阿里巴巴大数据 / 数据中台领域建设之后,将对数据湖和数据仓库的来龙去脉进行深入剖析,阐述两者融合演进的新方向——湖仓一体。

从 Hadoop 到云原生(2):Kyligence 在云原生巨浪中的思考
从 Hadoop 到云原生(2):Kyligence 在云原生巨浪中的思考

云原生的巨浪正在席卷全球的软件产业,包括开源软件和商业软件。

复盘领英Hadoop数据丢失事故,我们得到的血泪教训
复盘领英 Hadoop 数据丢失事故,我们得到的血泪教训

希望我们从大数据生态系统重大事故中学到的东西,也能给各位带来一点启示。

Apple Siri @ Spark, FoundationDB, Hadoop and HBase | ArchSummit
Apple Siri @ Spark, FoundationDB, Hadoop and HBase | ArchSummit

演讲:Apple Siri @ Spark, FoundationDB, Hadoop and HBase(英文演讲)

大数据技术发展(二):Hadoop 技术生态圈的发展
大数据技术发展 (二):Hadoop 技术生态圈的发展

Hadoop 是大数据领域中最重要的一门技术,我们很多人知道它是发源于 google 的"三驾马车",实际上真的是这样的吗?这篇文章一探 Hadoop 技术的起源。

Apache Hadoop 3.3.0发布,正式支持腾讯云对象存储COS
Apache Hadoop 3.3.0 发布,正式支持腾讯云对象存储 COS

大数据开发者将可以无缝使用中国云存储

监控大规模Hadoop集群,Prometheus完胜Zabbix?
监控大规模 Hadoop 集群,Prometheus 完胜 Zabbix?

本文介绍利用 Prometheus 为核心来构建大数据集群监控平台的经验。

Hadoop 怎么了,大数据路在何方
Hadoop 怎么了,大数据路在何方

本文以 Hadoop 的盛衰变化为楔子聊下大数据分析的发展现状和未来趋势。

Zookeeper选举机制
Zookeeper 选举机制

通过源码的分析,了解 zookeeper 作为分布式协调服务,在集群部署下的选举流程

基于Hadoop的58同城离线计算平台设计与实践
基于 Hadoop 的 58 同城离线计算平台设计与实践

本文介绍大数据平台离线计算和探讨 58 在离线计算平台建设实践的思路、方案和问题解决之道。

被仰望和遗忘过的Cloudera是否能王者归来?
被仰望和遗忘过的 Cloudera 是否能王者归来?

本文讲述了 Cloudera 的故事:曾被仰望,后被遗忘,光荣不再,王者能否归来。

EB 级 HDFS 集群磁带存储资源池的建设实践
EB 级 HDFS 集群磁带存储资源池的建设实践

本文主要介绍 HDFS 磁带存储资源池建设的实践,拓展 HDFS 异构存储到磁带存储介质,强化了 HDFS 低成本海量数据存储能力。

快手大数据架构演进实录
快手大数据架构演进实录

快手大数据架构团队组建于 2017 年,短短三年间已搭建起一个万亿级规模的大数据架构体系。快手的大数据架构是怎样演进的?在春晚红包活动中遇到了哪些挑战,又是如何应对的?在 Hadoop 的应用上,快手有何经验可供业界参考?

携程Hadoop跨机房架构实践
携程 Hadoop 跨机房架构实践

本文介绍携程 Hadoop 跨机房架构实践。

大数据公司 LiveRamp 上云记(三):如何在吞吐量有限的情况下处理数据复制
大数据公司 LiveRamp 上云记(三):如何在吞吐量有限的情况下处理数据复制

大数据公司 LiveRamp 公司在 2019 年逐步把它们迁移到了谷歌云计算平台,本系列文章将从技术角度深入地探讨这次迁移之旅。

Flink高级应用模式第一辑:欺诈检测系统案例研究
Flink 高级应用模式第一辑:欺诈检测系统案例研究

这是用来构建流应用程序的强大 Flink 模式

Apache Hadoop 机器学习引擎 Submarine 及生态 | QCon
Apache Hadoop 机器学习引擎 Submarine 及生态 | QCon

中。进行模型的在线推测和模型增量更新。的生态系统。中进行离线模型训练。项目主干分支,让你可以零开发成本的搭建自己的机器学习开发平台。

字节跳动 EB 级 HDFS 实践
字节跳动 EB 级 HDFS 实践

本文从 HDFS 发展历程入手,介绍发展路径上的重大挑战及解决方案。

迁移了几十家企业之后,我们总结了如何在云中构建成功的现代数据分析平台
迁移了几十家企业之后,我们总结了如何在云中构建成功的现代数据分析平台

这样一套强大的数据平台已经成为企业所不可或缺的数字化与 AI 转型基础。

Hadoop or TDengine,如何做物联网大数据平台的选型?
Hadoop or TDengine,如何做物联网大数据平台的选型?

本文介绍物联网大数据处理中可能遇到的问题,分析 TDengine、InfluxDB、ClickHouse、Hadoop、MySQL 等系统在处理时序数据时的优缺点。

怎样用Hadoop保护大数据?
怎样用 Hadoop 保护大数据?

通过本文,你可以了解 Hadoop 如何通过网络安全的方法来保护大数据。

深度分析数据科学流水线和Hadoop生态系统
深度分析数据科学流水线和 Hadoop 生态系统

数据科学流水线是一种教学模型,用于教授对数据进行全面统计分析所需的工作流。

如何使用Hadoop构建大规模数据产品?
如何使用 Hadoop 构建大规模数据产品?

大多数数据科学家会采用典型的分析工作流:采集 → 整理 → 建模 → 报告和可视化。然而,这种所谓的数据科学流水线完全由人力驱动,再辅以脚本语言(如 R 和 Python)的使用。流水线的每一个环节都需要人类的知识和分析技能,意在产生独特且不可泛化的结果。

    阿里10年大规模微服务“软负载”技术体系原理及实践
    阿里10年大规模微服务“软负载”技术体系原理及实践

    郭平(坤宇) | 阿里巴巴 高级技术专家

    立即下载
    Web 安全高手,是如何炼成的?

    王昊天 | 螣龙安全创始人兼 CEO 《Web 安全攻防实战》专栏作者

    立即下载
    双剑合壁:实时计算+交互式分析双擎解决数据中台实时性的短板和痛点

    姜伟华 | 阿里巴巴 资深技术专家

    立即下载