写点什么

Lambda 表达式让 Spark 编程更容易

  • 2014-04-16
  • 本文字数:1224 字

    阅读完需:约 4 分钟

近日,Databricks 官方网站发表了一篇博文,用示例说明了lambda 表达式如何让Spark 编程更容易。文章开头即指出,Spark 的主要目标之一是使编写大数据应用程序更容易。Spark 的Scala 和Python 接口一直很简洁,但由于缺少函数表达式,Java API 有些冗长。因此,随着Java 8 增加了 lambda 表达式,他们更新了 Spark 的 API。Spark 1.0 将提供 Java 8 lambda 表达式支持,而且与 Java 的旧版本保持兼容。该版本将在 5 月初发布。

文中举了两个例子,用于说明 Java 8 如何使代码更简洁。第一个例子是使用 Spark 的 filter 和 count 算子在一个日志文件中查找包含“error”的行。这很容易实现,但在 Java 7 中需要向 filter 传递一个 Function 对象,这有些笨拙:

复制代码
JavaRDD<String> lines = sc.textFile("hdfs://log.txt").filter(
new Function<String, Boolean>() {
public Boolean call(String s) {
return s.contains("error");
}
});
long numErrors = lines.count();

在 Java 8 中,代码更为简洁:

复制代码
JavaRDD<String> lines = sc.textFile("hdfs://log.txt")
.filter(s -> s.contains("error"));
long numErrors = lines.count();

当代码更长时,对比更明显。文中给出了第二个例子,读取一个文件,得出其中的单词数。在 Java 7 中,实现代码如下:

复制代码
JavaRDD<String> lines = sc.textFile("hdfs://log.txt");
// 将每一行映射成多个单词
JavaRDD<String> words = lines.flatMap(
new FlatMapFunction<String, String>() {
public Iterable<String> call(String line) {
return Arrays.asList(line.split(" "));
}
});
// 将单词转换成 (word, 1) 对
JavaPairRDD<String, Integer> ones = words.mapToPair(
new PairFunction<String, String, Integer>() {
public Tuple2<String, Integer> call(String w) {
return new Tuple2<String, Integer>(w, 1);
}
});
// 分组并按键值添加对以产生计数
JavaPairRDD<String, Integer> counts = ones.reduceByKey(
new Function2<Integer, Integer, Integer>() {
public Integer call(Integer i1, Integer i2) {
return i1 + i2;
}
});
counts.saveAsTextFile("hdfs://counts.txt");

而在 Java 8 中,该程序只需要几行代码:

复制代码
JavaRDD<String> lines = sc.textFile("hdfs://log.txt");
JavaRDD<String> words =
lines.flatMap(line -> Arrays.asList(line.split(" ")));
JavaPairRDD<String, Integer> counts =
words.mapToPair(w -> new Tuple2<String, Integer>(w, 1))
.reduceByKey((x, y) -> x + y);
counts.saveAsTextFile("hdfs://counts.txt");

要了解更多关于 Spark 的信息,可以查看官方文档。Spark 只需下载解压即可运行,而无须安装。


感谢辛湜对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-04-16 00:309335
用户头像

发布了 256 篇内容, 共 86.0 次阅读, 收获喜欢 12 次。

关注

评论

发布
暂无评论
发现更多内容

智启未来:TinyEngine 低代码引擎版本更新,畅享升级体验

OpenTiny社区

开源 前端 低代码 web开发

如何用云手机运营Facebook账号

Ogcloud

云手机 海外云手机 云手机海外版 国外云手机 跨境云手机

[每日秒懂] 软件工程

dinstone

DevOps 敏捷开发 软件工程 持续交付 持续部署

三款.NET代码混淆工具比较分析:ConfuserEx、Obfuscar和Ipa Guard

雪奈椰子

敏捷开发最佳实践:组织架构实践案例之构建软硬件融合部落

爱吃小舅的鱼

敏捷开发 敏捷流程

万界星空科技商业开源MES,技术支持+项目合作

万界星空科技

开源 mes 开源mes 万界星空科技 商业开源

软件测试学习笔记丨Pytest–Fixture特点及优势

测试人

软件测试

.NET开源免费的Windows快速文件搜索和应用程序启动器

EquatorCoco

C# .net 开源

【OCI系列】走进甲骨文云服务器:打造专属的云资源管理空间

Geek_2d6073

个人开发App成功上架手机应用市场的关键步骤

雪奈椰子

2024南京国际消费电子展览会

AIOTE智博会

消费电子展会 消费电子博览会

探索Garnet:微软开源的高性能分布式缓存存储系统

gogo

外贸独立站怎么搭建?

九凌网络

解密通义灵码:软件研发工具的“大脑”

阿里巴巴云原生

阿里云 云原生

Debezium vs OGG vs Tapdata:如何实时同步 Oracle 数据到 Kafka 消息队列?

tapdata

同步 Oracle 数据到 Kafka Oracle 到 Kafka Kafka 数据同步方案 Oracle 数据同步工具

盘点|《数据安全法》的26部配套立法(附下载)

极盾科技

数据安全

生成大边界不重复随机整数

waitmoon

伪随机函数 随机数

数据库与低代码:重塑软件开发的新范式

不在线第一只蜗牛

数据库 低代码 数据可视化

海外客户获取难?海外云手机助力电商营销引流!

Ogcloud

云手机 海外云手机 云手机海外版 电商云手机 跨境云手机

低代码与前端项目部署:革新软件开发的新篇章

EquatorCoco

前端 前端开发 低代码

【OCI系列】走进甲骨文云服务器:– Console

Geek_2d6073

面试官:Kafka和ES选主有什么区别?

王磊

Java 面试

云原生最佳实践系列2:基于 MSE 云原生网关同城多活

阿里巴巴云原生

阿里云 云原生 云原生网关

数据集成之任务调度模式 v0.7

LIEN

开源 数据仓库 数据集成 业务融合 API对接

解锁第五代英特尔至强的AI“秘籍”:CPU也能运行大模型推理

E科讯

云PBX的介绍

cts喜友科技

通信 通讯 云pbx 云通讯

一分钟了解JAVA语言

高端章鱼哥

图扑物联赋能港口智能照明

图扑物联

工业物联网 智慧港口 智能照明 web组态软件 云组态

极盾故事|“账号在非常用IP、非工作时间频繁访问敏感数据”,某品牌咖啡是这样处理的!

极盾科技

从 Linux 内核角度探秘 JDK MappedByteBuffer

不在线第一只蜗牛

Linux 测试

GaussDB(分布式)实例故障处理

快乐非自愿限量之名

分布式 故障

Lambda表达式让Spark编程更容易_语言 & 开发_马德奎_InfoQ精选文章