20 个大数据必知领域之「Spark」

发布于:2020 年 5 月 29 日 14:54

20个大数据必知领域之「Spark」

20个大数据必知领域之「Spark」
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark 是 UC Berkeley AMP lab (加州大学伯克利分校的 AMP 实验室) 所开源的类 Hadoop MapReduce 的通用并行框架,Spark,拥有 Hadoop MapReduce 所具有的优点;但不同于 MapReduce 的是——Job 中间输出结果可以保存在内存中,从而不再需要读写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。

一线实践案例

会议演讲推荐

阅读数:11 发布于:2020 年 5 月 29 日 14:54

评论

发布
暂无评论