Lambda表达式让Spark编程更容易_语言 & 开发_马德奎

阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见，现购票可享受 9 折优惠｜AICon 了解详情 



 写点什么

近日，Databricks 官方网站发表了一篇博文，用示例说明了lambda 表达式如何让Spark 编程更容易。文章开头即指出，Spark 的主要目标之一是使编写大数据应用程序更容易。Spark 的Scala 和Python 接口一直很简洁，但由于缺少函数表达式，Java API 有些冗长。因此，随着Java 8 增加了 lambda 表达式，他们更新了 Spark 的 API。Spark 1.0 将提供 Java 8 lambda 表达式支持，而且与 Java 的旧版本保持兼容。该版本将在 5 月初发布。

文中举了两个例子，用于说明 Java 8 如何使代码更简洁。第一个例子是使用 Spark 的 filter 和 count 算子在一个日志文件中查找包含“error”的行。这很容易实现，但在 Java 7 中需要向 filter 传递一个 Function 对象，这有些笨拙：

复制代码

  
JavaRDD<String> lines = sc.textFile("hdfs://log.txt").filter(
 new Function<String, Boolean>() {
   public Boolean call(String s) {
     return s.contains("error");
   }
});
long numErrors = lines.count();

在 Java 8 中，代码更为简洁：

复制代码

  
JavaRDD<String> lines = sc.textFile("hdfs://log.txt")
                         .filter(s -> s.contains("error"));
long numErrors = lines.count();

当代码更长时，对比更明显。文中给出了第二个例子，读取一个文件，得出其中的单词数。在 Java 7 中，实现代码如下：

复制代码

  
JavaRDD<String> lines = sc.textFile("hdfs://log.txt");
 
// 将每一行映射成多个单词
JavaRDD<String> words = lines.flatMap(
 new FlatMapFunction<String, String>() {
   public Iterable<String> call(String line) {
     return Arrays.asList(line.split(" "));
   }
});
 
// 将单词转换成 (word, 1) 对
JavaPairRDD<String, Integer> ones = words.mapToPair(
 new PairFunction<String, String, Integer>() {
   public Tuple2<String, Integer> call(String w) {
     return new Tuple2<String, Integer>(w, 1);
   }
});
 
// 分组并按键值添加对以产生计数
JavaPairRDD<String, Integer> counts = ones.reduceByKey(
 new Function2<Integer, Integer, Integer>() {
   public Integer call(Integer i1, Integer i2) {
     return i1 + i2;
   }
});
 
counts.saveAsTextFile("hdfs://counts.txt");

而在 Java 8 中，该程序只需要几行代码：

复制代码

  
JavaRDD<String> lines = sc.textFile("hdfs://log.txt");
JavaRDD<String> words =
   lines.flatMap(line -> Arrays.asList(line.split(" ")));
JavaPairRDD<String, Integer> counts =
   words.mapToPair(w -> new Tuple2<String, Integer>(w, 1))
        .reduceByKey((x, y) -> x + y);
counts.saveAsTextFile("hdfs://counts.txt");

要了解更多关于 Spark 的信息，可以查看官方文档。Spark 只需下载解压即可运行，而无须安装。

感谢辛湜对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ）或者腾讯微博（ @InfoQ ）关注我们，并与我们的编辑和其他读者朋友交流。

发布

暂无评论

创作场景

Lambda 表达式让 Spark 编程更容易

评论

TCP/IP 基础知识总结

Redis还可以做哪些事？

轻量型GPU应用首选京东智联云推出NVIDIA vGPU实例

接口测试（apipost、jmeter和python脚本）

Java9新特性-上篇

Scrapy 源码剖析（四）Scrapy如何完成抓取任务？

元模型驱动（一）构建元模型ーGME入门

java安全编码指南之:文件和共享目录的安全性

训练营第二周作业

为什么 React Hooks 优于 HOCs（译）

1分钟教你如何整理 React 知识体系

酷睿i5-10600KF对标锐龙7 3700X，游戏表现领先且售价更香

美国半导体十年计划中的NO.1，模拟硬件究竟有什么价值？

5G应用的实时决策

网络直播打赏背后的套路：刺激用户不理智消费

目标检测学习-比赛路线

如何构建一个通用的垂直爬虫平台？

元模型驱动（二）构建元模型ーGME构建分层模型

面试官:讲一下缓存穿透、缓存雪崩和缓存击穿？

进“大厂”的故事

【面经】面试官：讲讲类的加载、链接和初始化？

老板下了死命令，要把日志系统切换到Logback

【架构师训练营 1 期】第六周作业

队列实现栈的3种方法，全都击败了100%的用户！

训练营第二周课程总结

给打工人熬一锅「毒」鸡汤

Scrapy源码剖析（一）架构概览

Scrapy 源码剖析（二）Scrapy是如何运行起来的？

Scrapy 源码剖析（三）Scrapy有哪些核心组件？

如何搭建一个爬虫代理服务？

【架构师训练营 1 期】第六周学习总结


	JavaRDD<String> lines = sc.textFile("hdfs://log.txt").filter(
	new Function<String, Boolean>() {
	public Boolean call(String s) {
	return s.contains("error");
	}
	});
	long numErrors = lines.count();


	JavaRDD<String> lines = sc.textFile("hdfs://log.txt")
	.filter(s -> s.contains("error"));
	long numErrors = lines.count();


	JavaRDD<String> lines = sc.textFile("hdfs://log.txt");

	// 将每一行映射成多个单词
	JavaRDD<String> words = lines.flatMap(
	new FlatMapFunction<String, String>() {
	public Iterable<String> call(String line) {
	return Arrays.asList(line.split(" "));
	}
	});

	// 将单词转换成 (word, 1) 对
	JavaPairRDD<String, Integer> ones = words.mapToPair(
	new PairFunction<String, String, Integer>() {
	public Tuple2<String, Integer> call(String w) {
	return new Tuple2<String, Integer>(w, 1);
	}
	});

	// 分组并按键值添加对以产生计数
	JavaPairRDD<String, Integer> counts = ones.reduceByKey(
	new Function2<Integer, Integer, Integer>() {
	public Integer call(Integer i1, Integer i2) {
	return i1 + i2;
	}
	});

	counts.saveAsTextFile("hdfs://counts.txt");


	JavaRDD<String> lines = sc.textFile("hdfs://log.txt");
	JavaRDD<String> words =
	lines.flatMap(line -> Arrays.asList(line.split(" ")));
	JavaPairRDD<String, Integer> counts =
	words.mapToPair(w -> new Tuple2<String, Integer>(w, 1))
	.reduceByKey((x, y) -> x + y);
	counts.saveAsTextFile("hdfs://counts.txt");

创作场景

Lambda 表达式让 Spark 编程更容易

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载