SparkR发布让R跑在Spark上_语言 & 开发_包研



 写点什么

SparkR 是 AMPLab 发布的一个 R 开发包，为 Apache Spark 提供了轻量的前端。SparkR 提供了 Spark 中弹性分布式数据集（RDD）的 API，用户可以在集群上通过 R shell 交互性的运行 job。例如，我们可以在 HDFS 上读取或写入文件，也可以使用 lapply 来定义对应每一个 RDD 元素的运算。

复制代码

  
sc <- sparkR.init("local")
 lines <- textFile(sc, "hdfs://data.txt")
 wordsPerLine <- lapply(lines, function(line) { length(unlist(strsplit(line, " "))) })

除了常见的 RDD 函数式算子 reduce、reduceByKey、groupByKey 和 collect 之外，SparkR 也支持利用 lapplyWithPartition 对每个 RDD 的分区进行操作。

SparkR 也支持常见的闭包（closure）功能：用户定义的函数中所引用到的变量会自动被发送到集群中其他的机器上。参见一下例子中用户闭包中引用的 initialWeights 会被自动发送到集群其他机器上。

复制代码

  
lines <- textFile(sc, "hdfs://data.txt")
  initialWeights <- runif(n=D, min = -1, max = 1)
  createMatrix <- function(line) {
    as.numeric(unlist(strsplit(line, " "))) %*% t(initialWeights)
  }
  # initialWeights is automatically serialized
  matrixRDD <- lapply(lines, createMatrix)

用户还可以很容易的在已经安装了 R 开发包的集群上使用 SparkR。includePackage 命令用于指示在每个集群上执行操作前读取开发包。以下是个例子：

复制代码

  
generateSparse <- function(x) {
   # Use sparseMatrix function from the Matrix package
   sparseMatrix(i=c(1, 2, 3), j=c(1, 2, 3), x=c(1, 2, 3))
 }
 includePackage(sc, Matrix)
 sparseMat <- lapplyPartition(rdd, generateSparse)

针对 SparkR 发布的消息，大数据创业公司 DataBricks 的创始人之一 @hashjoin （辛湜）在微博上评论到：

R 是数据分析最常用的工具之一，但是 R 能处理的数据不能大于一台机器的内存。过去有一些 R 和 Hadoop 结合的尝试一般都性能低下，用户体验差。今天 AMPLab 发布了 R 的 Spark 前端，利用 R 进行大数据交互分析，也可以在节点上利用 R 的数据分析库，是大数据的一个新利器。

@vinW ：

我一直就说 R matlab 和 Spark 其实是一路的，内存流派的。Spark 这个分布式的高端搞法必将重振内存计算这个领域。

@刘思喆：

重磅消息，比预想的要早很多。

感谢辛湜对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ）或者腾讯微博（ @InfoQ ）关注我们，并与我们的编辑和其他读者朋友交流。

发布

暂无评论

创作场景

SparkR 发布让 R 跑在 Spark 上

评论

开源软件Greenplum突然关闭GitHub源码，数据仓库选型带来新变数

发展数字金融，金融机构数据库升级从核心系统开始更为根本

碳实践｜供应链碳管理是什么？为什么？如何做？

蓝易云 - MySQL如何优雅处理批量新增和更新?ON DUPLICATE KEY UPDATE用它!

蓝易云 - 源码编译tcpreplay,及使用方法


	sc <- sparkR.init("local")
	lines <- textFile(sc, "hdfs://data.txt")
	wordsPerLine <- lapply(lines, function(line) { length(unlist(strsplit(line, " "))) })


	lines <- textFile(sc, "hdfs://data.txt")
	initialWeights <- runif(n=D, min = -1, max = 1)
	createMatrix <- function(line) {
	as.numeric(unlist(strsplit(line, " "))) %*% t(initialWeights)
	}
	# initialWeights is automatically serialized
	matrixRDD <- lapply(lines, createMatrix)


	generateSparse <- function(x) {
	# Use sparseMatrix function from the Matrix package
	sparseMatrix(i=c(1, 2, 3), j=c(1, 2, 3), x=c(1, 2, 3))
	}
	includePackage(sc, Matrix)
	sparseMat <- lapplyPartition(rdd, generateSparse)

创作场景

SparkR 发布 让 R 跑在 Spark 上

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载

SparkR 发布让 R 跑在 Spark 上