限时领｜《AI 百问百答》专栏课+实体书（包邮）！了解详情 



 写点什么

登录/注册

rdd

收录了 rdd 频道下的 50 篇内容

且谈 Apache Spark 的 API 三剑客：RDD、DataFrame 和 Dataset

本文将深入讲解Apache Spark 2.0的三种API——RDD、DataFrame和Dataset，在什么情况下该选用哪一种以及为什么，并概述它们的性能和优化点，列举那些应该使用DataFrame和Dataset而不是RDD的场景。

作者 : Jules S. Damji 译者: 足下

2017-09-28

17738

理解 Spark 的核心 RDD

要理解Spark，就需得理解RDD。

作者 : 张逸

2014-08-30

37860

深入浅出Spark（二）：血统（DAG）

深入浅出 Spark（二）：血统（DAG）

如果说RDD是Spark对于分布式数据模型的抽象，那么DAG就是Spark对于分布式计算模型的抽象。

作者 : 吴磊策划: 陈思

2020-10-14

0

深入浅出Spark（一）：内存计算的由来

深入浅出 Spark（一）：内存计算的由来

作为系列的第一篇，本文作者将从Spark的起源探索其背后的原理，并对一些开发过程中的常见问题提供解决方法。

作者 : 吴磊策划: 陈思

2020-09-14

0

使用 Amazon EMR 上的 Apache MXNet 和 Apache Spark 进行分布式推理

使用 Amazon EMR 上的 Apache MXNet 和 Apache Spark 进行分布式推理

在这篇博客文章中，我们将演示如何使用 Amazon EMR 上的 Apache MXNet (孵化) 和 Apache Spark 对大型数据集运行分布式离线推理。

作者 : 亚马逊云科技 (Amazon Web Services）

2019-11-05

94

Spark Streaming 调优实践

Spark Streaming 调优实践

本文介绍一些Spark Streaming上能够提高应用性能的参数和配置。

作者 : DataFunTalk

2019-08-13

4867

深入浅出Spark（四）：存储系统

深入浅出 Spark（四）：存储系统

Spark存储系统如何为任务的执行提供基础保障？

作者 : 吴磊策划: 陈思

2020-12-28

0

用 Apache Spark 进行大数据处理——第一部分：入门介绍

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。在本文中，Srini Penchikala为大家介绍了Apache Spark框架如何利用标准API帮助完成大数据处理和分析工作。另外，在本文中还将对比Spark和Apache Hadoop这类传统的MapReduce实现。

作者 : Srini Penchikala 译者: 丛一

2015-04-01

199585

Spark 的性能调优

本文是对Spark调优的一个总结，从内存、CPU、序列化与传输、文件读写和任务五个方面进行了讲解调优的过程。

作者 : 四火

2016-01-19

11790

解读 2015 之 Spark 篇：新生态系统的形成

2015年，整个IT技术领域发生了许多深刻而又复杂的变化，InfoQ策划了“解读2015”年终技术盘点系列文章，希望能够给读者清晰地梳理出技术领域在这一年的发展变化，回顾过去，继续前行。本文是大数据解读2015之Spark篇，明略数据的梁堰波为大家解读Spark在2015年的快速发展，后续InfoQ会有更多关于大数据生态技术的总结。

作者 : 梁堰波

2016-01-06

8303

基于 Spark 的文本情感分析，以《疯狂动物城》为例

基于 Spark 的文本情感分析，以《疯狂动物城》为例

本文描述了一个基于 Spark 构建的认知系统：文本情感分析系统，分析和理解社交论坛的非结构化文本数据。

作者 : 江万、英春

2019-10-08

134

知乎 AI 用户模型服务性能优化实践

知乎 AI 用户模型服务性能优化实践

TPR「作者创作权威度」，广告定向投放用到的基础属性等。提供的数据和功能主要有：多集群同步三部分组成，下面将依次进行介绍。

作者 : 王政英

2020-03-26

5

用 Apache Spark 进行大数据处理 - 第六部分: 用 Spark GraphX 进行图数据分析

这是“用Apache Spark进行大数据处理”系列文章的第六篇。在这最后一部分，我们将聚焦于如何处理图数据和学习Spark中的图数据分析库GraphX。

作者 : Srini Penchikala 译者: CarolGuo

2017-05-30

12629

Spark地基之RDD

Spark 地基之 RDD

RDD是Spark的基本数据抽象，利用将数据存储在内存；分区存储使得其天然支持并行；存储依赖关系提升错误恢复，基于RDD的论文介绍了RDD的一些概念和实现思想

spark

RDD

2021-04-27

0

Spark 技术在京东智能供应链预测的应用

前段时间京东公开了面向第二个十二年的战略规划，表示京东将全面走向技术化，大力发展人工智能和机器人自动化技术，将过去传统方式构筑的优势全面升级。京东Y事业部顺势成立，该事业部将以服务泛零售为核心，着重智能供应能力的打造，核心使命是利用人工智能技术来驱动零售革新。

作者 : 杨冬越郭景瞻

2017-08-10

4338

架构师训练营第一期 - 第十三周学习总结

spark是现阶段使用最广泛的大数据计算引擎，是MR的替代者，其性能远远超过MR。Spark将一个用户作业生成DAG，DAG切分的多阶段计算过程更快速，同时优先使用内存存储中间计算结果更高效；而MR则需要将作业切分为多个map/reduce任务，每次任务结束后，需

极客大学架构师训练营

卖猪肉的大叔

2020-12-20

0

大数据基础：Spark工作原理及基础概念

大数据基础：Spark 工作原理及基础概念

Apache Spark 是专为大规模数据处理而设计的快速通用计算引擎，在数据挖掘和机器学习领域有着广泛的应用，现在也已形成一个高速发展、应用广泛的生态系统。本文将为大家详细介绍 Spark 的核心技术原理。

作者 : 云加社区

2020-11-26

0

在 Amazon EMR 上成功管理 Apache Spark 应用程序内存的最佳实践

在 Amazon EMR 上成功管理 Apache Spark 应用程序内存的最佳实践

在大数据领域，一个常见的用例是对来自各种数据源的大量数据执行提取、转换 (清洗转换) 和数据分析。

作者 : 亚马逊云科技 (Amazon Web Services）

2019-09-18

398

Spark RDD 分区数与分区器源码解析

现如今Spark已经得到了几乎所有大数据企业的认可，而这些企业也迅速将自己的产品与Spark进行了紧密地集成。

spark

数新网络官方账号

2022-12-08

0

Spark RDD详解

Spark RDD 详解

●为什么要有RDD?

大数据

spark

5月日更

大数据技术指南

2021-05-14

0