写点什么

Lambda 表达式让 Spark 编程更容易

  • 2014-04-16
  • 本文字数:1224 字

    阅读完需:约 4 分钟

近日,Databricks 官方网站发表了一篇博文,用示例说明了lambda 表达式如何让Spark 编程更容易。文章开头即指出,Spark 的主要目标之一是使编写大数据应用程序更容易。Spark 的Scala 和Python 接口一直很简洁,但由于缺少函数表达式,Java API 有些冗长。因此,随着Java 8 增加了 lambda 表达式,他们更新了 Spark 的 API。Spark 1.0 将提供 Java 8 lambda 表达式支持,而且与 Java 的旧版本保持兼容。该版本将在 5 月初发布。

文中举了两个例子,用于说明 Java 8 如何使代码更简洁。第一个例子是使用 Spark 的 filter 和 count 算子在一个日志文件中查找包含“error”的行。这很容易实现,但在 Java 7 中需要向 filter 传递一个 Function 对象,这有些笨拙:

复制代码
JavaRDD<String> lines = sc.textFile("hdfs://log.txt").filter(
new Function<String, Boolean>() {
public Boolean call(String s) {
return s.contains("error");
}
});
long numErrors = lines.count();

在 Java 8 中,代码更为简洁:

复制代码
JavaRDD<String> lines = sc.textFile("hdfs://log.txt")
.filter(s -> s.contains("error"));
long numErrors = lines.count();

当代码更长时,对比更明显。文中给出了第二个例子,读取一个文件,得出其中的单词数。在 Java 7 中,实现代码如下:

复制代码
JavaRDD<String> lines = sc.textFile("hdfs://log.txt");
// 将每一行映射成多个单词
JavaRDD<String> words = lines.flatMap(
new FlatMapFunction<String, String>() {
public Iterable<String> call(String line) {
return Arrays.asList(line.split(" "));
}
});
// 将单词转换成 (word, 1) 对
JavaPairRDD<String, Integer> ones = words.mapToPair(
new PairFunction<String, String, Integer>() {
public Tuple2<String, Integer> call(String w) {
return new Tuple2<String, Integer>(w, 1);
}
});
// 分组并按键值添加对以产生计数
JavaPairRDD<String, Integer> counts = ones.reduceByKey(
new Function2<Integer, Integer, Integer>() {
public Integer call(Integer i1, Integer i2) {
return i1 + i2;
}
});
counts.saveAsTextFile("hdfs://counts.txt");

而在 Java 8 中,该程序只需要几行代码:

复制代码
JavaRDD<String> lines = sc.textFile("hdfs://log.txt");
JavaRDD<String> words =
lines.flatMap(line -> Arrays.asList(line.split(" ")));
JavaPairRDD<String, Integer> counts =
words.mapToPair(w -> new Tuple2<String, Integer>(w, 1))
.reduceByKey((x, y) -> x + y);
counts.saveAsTextFile("hdfs://counts.txt");

要了解更多关于 Spark 的信息,可以查看官方文档。Spark 只需下载解压即可运行,而无须安装。


感谢辛湜对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-04-16 00:309696
用户头像

发布了 256 篇内容, 共 96.5 次阅读, 收获喜欢 12 次。

关注

评论

发布
暂无评论
发现更多内容

持续引领产业发展,华为云桌面连续6年位居国内市占率第一

路过的憨憨

华为

Wallys /IPQ4019 IPQ4029 ,HTTPS / all the modules of Quectel/Indoor Aluminium alloy material

wallys-wifi6

IPQ4019 ipq4029

命令执行相关的web题

w010w

命令行 CTF 每日一题 10月月更 web基础

大数据开发培训学习方法

小谷哥

新手剪辑师秒变大神 高级感视频剪辑的几种常用技巧

懒得勤快

生产数据实时分析,产品质量高效管控|打造面向工业4.0的智能工厂02

EMQ映云科技

云原生 物联网 IoT 边云协同 10月月更

HTML学习笔记

虾仁疙瘩汤

html 前端 10月月更

1024,节日快乐

未来智安XDR SEC

分布式事务Seata框架的AT模式

C++后台开发

分布式 微服务 后端开发 C++开发 Seata框架

低代码平台 - 危险的赌注

世开 Coding

软件开发 低代码 开发框架

华为云对象存储OBS,助力企业高效解决存储问题

路过的憨憨

华为

web前端培训学习能找到工作吗

小谷哥

1024程序员节 | 畅聊名“猿”之路,重磅视频预告

小谷哥

软件测试面试真题 | 显式等待与隐式等待的区别?与强制等待的方式分别是什么,有什么区别?

测试人

软件测试 面试题 测试开发 测试工程师

英特尔“四维发力”系统级代工:晶圆制造、封装、芯粒、软件

科技之家

华为云大数据BI解决方案,如何帮助企业精准营销

路过的憨憨

华为

CSS学习笔记1

虾仁疙瘩汤

CSS html 10月月更

如何规范App广告的隐私获取,让用户拥有更多知情权?

HarmonyOS SDK

广告sdk

倒计时第2天!2022 XDR网络安全运营新理念峰会即将开幕

未来智安XDR SEC

网络安全

【文本检测与识别白皮书】第三章 - 第三节:算法模型 2

合合技术团队

人工智能 深度学习 大数据 文字识别

华为云CDN联手OBS桶,帮助企业更好降本增效!

路过的憨憨

华为

BizWorks应⽤平台基于KubeVela的实践

阿里云E2企业云服务

阿里云 中台 插件 企业架构和云服务 api 网关

SAP | 如何使用内部表

暮春零贰

SAP 10月月更 内部表

SAP | 聊一聊必不可少的Debug

暮春零贰

debug SAP 10月月更

分布式事务-事务补偿(TCC)

zarmnosaj

10月月更

你好

小东

第一次

LeaRun低代码开发平台 助推物联网应用快速落地

力软低代码开发平台

rdd pair reduce

小东

前端培训学习完之后可以从事的工作方向

小谷哥

一文读懂云渲染“串流”全链路时延及优化策略

阿里云CloudImagine

阿里云 云渲染 云游戏 串流

HTML基本知识学习笔记

虾仁疙瘩汤

html 前端 10月月更

Lambda表达式让Spark编程更容易_语言 & 开发_马德奎_InfoQ精选文章