Hadoop

Hadoop生态系统经过多年的发展,俨然已经成为大数据平台的事实标准。
收录了Hadoop频道下的 56 篇内容
  • 文章
  • 迷你书
怎样用Hadoop保护大数据?
怎样用 Hadoop 保护大数据?

通过本文,你可以了解 Hadoop 如何通过网络安全的方法来保护大数据。

深度分析数据科学流水线和Hadoop生态系统
深度分析数据科学流水线和 Hadoop 生态系统

数据科学流水线是一种教学模型,用于教授对数据进行全面统计分析所需的工作流。

如何使用Hadoop构建大规模数据产品?
如何使用 Hadoop 构建大规模数据产品?

大多数数据科学家会采用典型的分析工作流:采集 → 整理 → 建模 → 报告和可视化。然而,这种所谓的数据科学流水线完全由人力驱动,再辅以脚本语言(如 R 和 Python)的使用。流水线的每一个环节都需要人类的知识和分析技能,意在产生独特且不可泛化的结果。

Hadoop迎来3.x时代,昔日大数据霸主如何应对云计算挑战?
Hadoop 迎来 3.x 时代,昔日大数据霸主如何应对云计算挑战?

本文将按照存储和计算两个方向,分别介绍 Hadoop 社区当前的热点话题及后续规划。

除了实时性,你还应该关注的三个数据科学改进方向
除了实时性,你还应该关注的三个数据科学改进方向

近来,我一直在思考过去几年当中我们在数据工程方面取得的进展,以及这个领域接下来的发展方向。

调查显示企业收集存储的数据有55%未能被使用,大家该如何应对“暗数据”挑战?
调查显示企业收集存储的数据有 55% 未能被使用,大家该如何应对“暗数据”挑战?

随着企业数据生成的持续增长,与暗数据相关的成本与负债也在不断增加。对于那些希望提高收集数据的可用性与安全性的企业领导者,哪些选项值得优先考量?

后Hadoop世界中的大数据
后 Hadoop 世界中的大数据

在过去的十年里,由于在 Hadoop 上已经投资了数十亿美元,因此企业不愿意关闭它们的服务器集群。相反,大多数专家都希望 Hadoop 栈能够坚持一段时间,运行客户在其上构建的定制应用。它只是全球 2000 强企业数据中心中的又一项遗留技术。