收录了 rdd 频道下的 50 篇内容
本文将深入讲解Apache Spark 2.0的三种API——RDD、DataFrame和Dataset,在什么情况下该选用哪一种以及为什么,并概述它们的性能和优化点,列举那些应该使用DataFrame和Dataset而不是RDD的场景。
要理解Spark,就需得理解RDD。
如果说RDD是Spark对于分布式数据模型的抽象,那么DAG就是Spark对于分布式计算模型的抽象。
作为系列的第一篇,本文作者将从Spark的起源探索其背后的原理,并对一些开发过程中的常见问题提供解决方法。
在这篇博客文章中,我们将演示如何使用 Amazon EMR 上的 Apache MXNet (孵化) 和 Apache Spark 对大型数据集运行分布式离线推理。
本文介绍一些Spark Streaming上能够提高应用性能的参数和配置。
Spark存储系统如何为任务的执行提供基础保障?
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。在本文中,Srini Penchikala为大家介绍了Apache Spark框架如何利用标准API帮助完成大数据处理和分析工作。另外,在本文中还将对比Spark和Apache Hadoop这类传统的MapReduce实现。
本文是对Spark调优的一个总结,从内存、CPU、序列化与传输、文件读写和任务五个方面进行了讲解调优的过程。
2015年,整个IT技术领域发生了许多深刻而又复杂的变化,InfoQ策划了“解读2015”年终技术盘点系列文章,希望能够给读者清晰地梳理出技术领域在这一年的发展变化,回顾过去,继续前行。 本文是大数据解读2015之Spark篇,明略数据的梁堰波为大家解读Spark在2015年的快速发展,后续InfoQ会有更多关于大数据生态技术的总结。
本文描述了一个基于 Spark 构建的认知系统:文本情感分析系统,分析和理解社交论坛的非结构化文本数据。
TPR「作者创作权威度」,广告定向投放用到的基础属性等。提供的数据和功能主要有:多集群同步三部分组成,下面将依次进行介绍。
这是“用Apache Spark进行大数据处理”系列文章的第六篇。在这最后一部分,我们将聚焦于如何处理图数据和学习Spark中的图数据分析库GraphX。
RDD是Spark的基本数据抽象,利用将数据存储在内存;分区存储使得其天然支持并行;存储依赖关系提升错误恢复,基于RDD的论文介绍了RDD的一些概念和实现思想
前段时间京东公开了面向第二个十二年的战略规划,表示京东将全面走向技术化,大力发展人工智能和机器人自动化技术,将过去传统方式构筑的优势全面升级。京东Y事业部顺势成立,该事业部将以服务泛零售为核心,着重智能供应能力的打造,核心使命是利用人工智能技术来驱动零售革新。
spark是现阶段使用最广泛的大数据计算引擎,是MR的替代者,其性能远远超过MR。Spark将一个用户作业生成DAG,DAG切分的多阶段计算过程更快速,同时优先使用内存存储中间计算结果更高效;而MR则需要将作业切分为多个map/reduce任务,每次任务结束后,需
Apache Spark 是专为大规模数据处理而设计的快速通用计算引擎,在数据挖掘和机器学习领域有着广泛的应用,现在也已形成一个高速发展、应用广泛的生态系统。本文将为大家详细介绍 Spark 的核心技术原理。
在大数据领域,一个常见的用例是对来自各种数据源的大量数据执行提取、转换 (清洗转换) 和数据分析。