聚焦大模型浪潮下软件工程的创新洞见与实践 |QCon主题演讲大咖来袭 了解详情
写点什么

rdd

收录了 rdd 频道下的 50 篇内容

且谈 Apache Spark 的 API 三剑客:RDD、DataFrame 和 Dataset

本文将深入讲解Apache Spark 2.0的三种API——RDD、DataFrame和Dataset,在什么情况下该选用哪一种以及为什么,并概述它们的性能和优化点,列举那些应该使用DataFrame和Dataset而不是RDD的场景。

理解 Spark 的核心 RDD

要理解Spark,就需得理解RDD。

深入浅出Spark(二):血统(DAG)
深入浅出 Spark(二):血统(DAG)

如果说RDD是Spark对于分布式数据模型的抽象,那么DAG就是Spark对于分布式计算模型的抽象。

深入浅出Spark(一):内存计算的由来
深入浅出 Spark(一):内存计算的由来

作为系列的第一篇,本文作者将从Spark的起源探索其背后的原理,并对一些开发过程中的常见问题提供解决方法。

使用 Amazon EMR 上的 Apache MXNet 和 Apache Spark 进行分布式推理
使用 Amazon EMR 上的 Apache MXNet 和 Apache Spark 进行分布式推理

在这篇博客文章中,我们将演示如何使用 Amazon EMR 上的 Apache MXNet (孵化) 和 Apache Spark 对大型数据集运行分布式离线推理。

Spark Streaming 调优实践
Spark Streaming 调优实践

本文介绍一些Spark Streaming上能够提高应用性能的参数和配置。

深入浅出Spark(四):存储系统
深入浅出 Spark(四):存储系统

Spark存储系统如何为任务的执行提供基础保障?

用 Apache Spark 进行大数据处理——第一部分:入门介绍

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。在本文中,Srini Penchikala为大家介绍了Apache Spark框架如何利用标准API帮助完成大数据处理和分析工作。另外,在本文中还将对比Spark和Apache Hadoop这类传统的MapReduce实现。

Spark 的性能调优

本文是对Spark调优的一个总结,从内存、CPU、序列化与传输、文件读写和任务五个方面进行了讲解调优的过程。

解读 2015 之 Spark 篇:新生态系统的形成

2015年,整个IT技术领域发生了许多深刻而又复杂的变化,InfoQ策划了“解读2015”年终技术盘点系列文章,希望能够给读者清晰地梳理出技术领域在这一年的发展变化,回顾过去,继续前行。 本文是大数据解读2015之Spark篇,明略数据的梁堰波为大家解读Spark在2015年的快速发展,后续InfoQ会有更多关于大数据生态技术的总结。

基于 Spark 的文本情感分析,以《疯狂动物城》为例
基于 Spark 的文本情感分析,以《疯狂动物城》为例

本文描述了一个基于 Spark 构建的认知系统:文本情感分析系统,分析和理解社交论坛的非结构化文本数据。

知乎 AI 用户模型服务性能优化实践
知乎 AI 用户模型服务性能优化实践

TPR「作者创作权威度」,广告定向投放用到的基础属性等。提供的数据和功能主要有:多集群同步三部分组成,下面将依次进行介绍。

用 Apache Spark 进行大数据处理 - 第六部分: 用 Spark GraphX 进行图数据分析

这是“用Apache Spark进行大数据处理”系列文章的第六篇。在这最后一部分,我们将聚焦于如何处理图数据和学习Spark中的图数据分析库GraphX。

Spark地基之RDD
Spark 地基之 RDD

RDD是Spark的基本数据抽象,利用将数据存储在内存;分区存储使得其天然支持并行;存储依赖关系提升错误恢复,基于RDD的论文介绍了RDD的一些概念和实现思想

spark
RDD
Spark 技术在京东智能供应链预测的应用

前段时间京东公开了面向第二个十二年的战略规划,表示京东将全面走向技术化,大力发展人工智能和机器人自动化技术,将过去传统方式构筑的优势全面升级。京东Y事业部顺势成立,该事业部将以服务泛零售为核心,着重智能供应能力的打造,核心使命是利用人工智能技术来驱动零售革新。

架构师训练营第一期 - 第十三周学习总结

spark是现阶段使用最广泛的大数据计算引擎,是MR的替代者,其性能远远超过MR。Spark将一个用户作业生成DAG,DAG切分的多阶段计算过程更快速,同时优先使用内存存储中间计算结果更高效;而MR则需要将作业切分为多个map/reduce任务,每次任务结束后,需

极客大学架构师训练营
大数据基础:Spark工作原理及基础概念
大数据基础:Spark 工作原理及基础概念

Apache Spark 是专为大规模数据处理而设计的快速通用计算引擎,在数据挖掘和机器学习领域有着广泛的应用,现在也已形成一个高速发展、应用广泛的生态系统。本文将为大家详细介绍 Spark 的核心技术原理。

在 Amazon EMR 上成功管理 Apache Spark 应用程序内存的最佳实践
在 Amazon EMR 上成功管理 Apache Spark 应用程序内存的最佳实践

在大数据领域,一个常见的用例是对来自各种数据源的大量数据执行提取、转换 (清洗转换) 和数据分析。

Spark RDD 分区数与分区器源码解析

现如今Spark已经得到了几乎所有大数据企业的认可,而这些企业也迅速将自己的产品与Spark进行了紧密地集成。

spark
Spark RDD详解
Spark RDD 详解

●为什么要有RDD?

大数据
spark
5月日更
rdd专题_资料-InfoQ中文网