rdd

Apache Spark 3.0 预览版正式发布,多项重大功能发布
Apache Spark 3.0 预览版正式发布,多项重大功能发布

Apache Spark 3.0 增加了很多令人兴奋的新特性

推荐系统中模型训练及使用流程的标准化
推荐系统中模型训练及使用流程的标准化

本文介绍如何在推荐系统中保证离线训练和在线预测时特征处理使用方式的代码级一致性。

学会用 Spark 实现朴素贝叶斯算法

本文作者汪榕曾写过一篇文章:《以什么姿势进入数据挖掘会少走弯路》,是对想入行大数据的读者的肺腑之言,...

使用 Amazon EMR 上的 Apache MXNet 和 Apache Spark 进行分布式推理
使用 Amazon EMR 上的 Apache MXNet 和 Apache Spark 进行分布式推理

在这篇博客文章中,我们将演示如何使用 Amazon EMR 上的 Apache MXNet(孵化)和 Apache Spark 对大型数据集...

Flink 流式计算在节省资源方面的简单分析
Flink 流式计算在节省资源方面的简单分析

小米在流式计算方面经历了Storm、Spark Streaming和Flink的发展历程。在整个发展历程中,逐步完善了稳定性...

Spark Streaming 调优实践
Spark Streaming 调优实践

本文介绍一些Spark Streaming上能够提高应用性能的参数和配置。

是时候学习真正的 spark 技术了
是时候学习真正的 spark 技术了

spark sql 可以说是 spark 中的精华部分了,那么到底该怎么学习呢?

Uber机器学习平台Michelangelo是如何使用Spark模型的?
Uber 机器学习平台 Michelangelo 是如何使用 Spark 模型的?

Michelangelo是Uber的机器学习(ML)平台,可以训练并服务于整个公司范围内生产环境中的数千种模型。

45 倍加速 Spark 的处理效率?!

时常采用内存数据结构会使得程序更加高效,比如,Spark借助Redis可以提速45倍。