阿里云飞天发布时刻,领先大模型限免,超7000万 tokens免费体验 了解详情
写点什么

Lambda 表达式让 Spark 编程更容易

  • 2014-04-16
  • 本文字数:1224 字

    阅读完需:约 4 分钟

近日,Databricks 官方网站发表了一篇博文,用示例说明了lambda 表达式如何让Spark 编程更容易。文章开头即指出,Spark 的主要目标之一是使编写大数据应用程序更容易。Spark 的Scala 和Python 接口一直很简洁,但由于缺少函数表达式,Java API 有些冗长。因此,随着Java 8 增加了 lambda 表达式,他们更新了 Spark 的 API。Spark 1.0 将提供 Java 8 lambda 表达式支持,而且与 Java 的旧版本保持兼容。该版本将在 5 月初发布。

文中举了两个例子,用于说明 Java 8 如何使代码更简洁。第一个例子是使用 Spark 的 filter 和 count 算子在一个日志文件中查找包含“error”的行。这很容易实现,但在 Java 7 中需要向 filter 传递一个 Function 对象,这有些笨拙:

复制代码
JavaRDD<String> lines = sc.textFile("hdfs://log.txt").filter(
new Function<String, Boolean>() {
public Boolean call(String s) {
return s.contains("error");
}
});
long numErrors = lines.count();

在 Java 8 中,代码更为简洁:

复制代码
JavaRDD<String> lines = sc.textFile("hdfs://log.txt")
.filter(s -> s.contains("error"));
long numErrors = lines.count();

当代码更长时,对比更明显。文中给出了第二个例子,读取一个文件,得出其中的单词数。在 Java 7 中,实现代码如下:

复制代码
JavaRDD<String> lines = sc.textFile("hdfs://log.txt");
// 将每一行映射成多个单词
JavaRDD<String> words = lines.flatMap(
new FlatMapFunction<String, String>() {
public Iterable<String> call(String line) {
return Arrays.asList(line.split(" "));
}
});
// 将单词转换成 (word, 1) 对
JavaPairRDD<String, Integer> ones = words.mapToPair(
new PairFunction<String, String, Integer>() {
public Tuple2<String, Integer> call(String w) {
return new Tuple2<String, Integer>(w, 1);
}
});
// 分组并按键值添加对以产生计数
JavaPairRDD<String, Integer> counts = ones.reduceByKey(
new Function2<Integer, Integer, Integer>() {
public Integer call(Integer i1, Integer i2) {
return i1 + i2;
}
});
counts.saveAsTextFile("hdfs://counts.txt");

而在 Java 8 中,该程序只需要几行代码:

复制代码
JavaRDD<String> lines = sc.textFile("hdfs://log.txt");
JavaRDD<String> words =
lines.flatMap(line -> Arrays.asList(line.split(" ")));
JavaPairRDD<String, Integer> counts =
words.mapToPair(w -> new Tuple2<String, Integer>(w, 1))
.reduceByKey((x, y) -> x + y);
counts.saveAsTextFile("hdfs://counts.txt");

要了解更多关于 Spark 的信息,可以查看官方文档。Spark 只需下载解压即可运行,而无须安装。


感谢辛湜对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-04-16 00:309616
用户头像

发布了 256 篇内容, 共 94.0 次阅读, 收获喜欢 12 次。

关注

评论

发布
暂无评论
发现更多内容

2024全球人形机器人领域深度洞察和前瞻报告:具身智能技术、人形机器人、大模型、商业化卡点和趋势分析

机器人头条

大模型 人形机器人 具身智能

以技术赋能艺术,华为视频AiMax品鉴会助力国乐在创新中焕发新生

最新动态

码上报名 | 东方通联合openEuler社区即将开启云原生开源中间件 Meetup北京站

科技热闻

华为应用市场召开首届“编辑之选创享会”,推动原生鸿蒙应用生态持续创新

最新动态

详解GaussDB(DWS)逻辑集群,如何化解大规模业务数据管理难题

华为云开发者联盟

数据库 数据仓库 GaussDB 逻辑集群

国云官网焕新升级,共创数智未来!

天翼云开发者社区

云计算 天翼云

利用item_get API:深入探索淘宝商品详情的获取

代码忍者

淘宝API接口 tb商品详情数据接口

独家丨原阿里达摩院、「木蚁机器人」CTO张硕切入具身智能赛道,做机器人大脑

机器人头条

大模型 人形机器人 具身智能 阿里达摩院

什么是二级域名?一级域名和二级域名有什么区别?

国科云

面向不同岗位的开发人员,平台工程都具备哪些能力?

行云创新

开发者 云原生 架构师 平台工程

深度探索京东API接口:如何高效获取SKU详细信息与商品详情,附带实战代码示例

代码忍者

京东API接口

AI Agent与MEME:技术与文化融合驱动Web3创新

TechubNews

阿里裁员就靠这166页精品Java面试手册成功逆袭java高级开发岗了

程序员高级码农

Java 编程 程序员 java面试 Java面试题

用豆包MarsCode IDE,从0到1画出精美数据大屏!

Trae

JavaScript AI AI编程 豆包MarsCode

站外商详的重构与优化|得物技术

得物技术

前端 H5

主机管理软件WGCLOUD介绍 - 部署在公网运行时配置建议增强安全性

王逅逅

服务器安全 zabbix Prometheus #运维 Linux 运维

这本秘籍送到心趴上了

CodeBuddy

淘宝天猫API接口深度解析:如何高效利用商品详情与关键词搜索商品列表功能

代码忍者

淘宝API接口

【年度高价值技术团队】ProtonBase 荣登 InfoQ 2024 中国技术力量年度榜单!

ProtonBase

#云原生 #人工智能 #大数据 protonbase datawarebase

天润融通助力连锁商超,客户感知驱动爆款单品打造

天润融通

大数据与AI:从分析到预测的跃迁

天津汇柏科技有限公司

大数据‘’ AI 人工智能

Lambda表达式让Spark编程更容易_语言 & 开发_马德奎_InfoQ精选文章