写点什么

苹果开源一个可提升 Apache Spark 向量处理速度的插件

  • 2024-02-23
    北京
  • 本文字数:1152 字

    阅读完需:约 4 分钟

大小:543.00K时长:03:05
苹果开源一个可提升Apache Spark向量处理速度的插件

本文最初发布于 THENEWSTACK。



消费电子巨头苹果公司发布了一个开源插件,可以帮助Apache Spark更有效地执行向量搜索,使开源数据处理平台在大规模机器学习数据处理方面变得更有吸引力。

 


 (点击查看大图)

 

这个基于Rust的插件名为Apache Spark DataFusion Comet。苹果工程师已经将其提交给了Apache软件基金会,使其成为Apache Arrow项目下的一个子项目。该插件是以可扩展的Apache DataFusion查询引擎(也是用Rust编写的)和Arrow列式数据格式为基础构建的。

 

“我们的目标是通过将 Spark 的物理计划执行委托给 DataFusion 的高度模块化执行框架来加速 Spark 查询执行,同时在 Spark 用户看来语义不变,”苹果软件工程师Chao SunApache邮件列表中解释道。

 

Sun 指出,该项目的功能尚未全部开发完成,但部分功能已经应用于生产环境。

 

Apache Arrow项目管理委员会主席 Andy Grove 在X上指出:“对于最近每个人都在谈论的可组合数据系统概念,这就是一个很好的例子。利用 Spark 非常成熟的计划和调度,并将其委托给 DataFusion 进行本地执行。”

 

Apache Arrow DataFusion Comet 是什么?

利用 Apache Arrow DataFusion 运行时,Comet 可以使用 Apache Arrow 列式格式查询数据。这种方法旨在通过本机向量化执行来改进查询效率和查询运行时。

 

Apache Spark创建于 2010 年,用于处理各种格式化和非格式化结构(“大数据”)中的大量分布式数据

 

向量处理已经成为机器学习社区最受欢迎的技术,因为它可以缩短分析大量数据的时间。

 

Fivetran 高级产品布道师Charles Wang上个月的一篇分析文章中写道,“向量化查询可以操作批量数据并并行处理多个数据元素,改善了分析查询的性能、效率、可扩展性和内存占用。它与列式数据库架构有着千丝万缕的联系,因为它允许将整个列加载到 CPU 寄存器中进行处理。”

 

按照设计,Comet 的特性会与 Spark 保持对等(目前支持 Spark 3.2 到 3.4 版本)。也就是说,无论是否使用 Comet 扩展,用户都可以运行同样的查询。

 

Spark 内置的表达式和操作符(Filter/Project/Aggregation/Join/Exchange)可以在 Comet 中使用,Apache Parquet列式存储格式也可以,无论是读模式还是写模式。

 

Comet 可以在 Linux 或 Mac OS 上运行,需要 JDK 8 及以上版本和 GLIBC 2.17。



 (点击查看大图)

 

其他可加速向量处理的 Spark 插件

软件工程师 Chris Riccomini指出,苹果公司并不是FAANG俱乐部中唯一对向量处理感兴趣的成员。去年,Meta 也发布了自己的 Spark 向量处理项目:Velox

 

类似的项目还包括英特尔的Gluten(最近被接收进入ASF孵化)、英伟达GPU RAPIDS Spark加速器Blaze(也可与Apache Arrow DataFusion搭配使用),以及Ballista分布式 SQL 查询引擎。

 

声明:本文为 InfoQ 翻译,未经许可禁止转载。

 

原文链接:https://thenewstack.io/apple-comet-brings-fast-vector-processing-to-apache-spark

2024-02-23 14:467752

评论

发布
暂无评论
发现更多内容

2020-09-03-第十三周学习总结

路易斯李李李

商业通识 : 商业为什么能进步?

Walker

学习 得到 个人成长 商业

拥抱K8S系列-05-基于docker部署面临的问题

张无忌

Docker 运维

读后感之《任正非:以客户为中心》

王新涵

给DevOps加点料——融入安全性的DevSecOps

禅道项目管理

DevOps 运维 测试 开发 安全性

甲方日常 8

句子

工作 随笔杂谈 日常

ARTS Week15

时之虫

ARTS 打卡计划

深入理解JVM垃圾回收机制 - GC Roots枚举

Skye

GC Roots枚举 安全点 安全区域 OopMap

从湖南“软硬兼施”,管窥三湘水畔的智能浪潮

脑极体

Golang Package sync 透析

卓丁

sync Go 语言

有奖征文重磅来袭,来!一起玩把大的!

有只小耳朵

给大家介绍下,这是我的流程图软件 —— draw.io

程序员小航

工具 流程图 draw.io drawio-desktop 画图软件

LeetCode题解:239. 滑动窗口最大值,单调队列,JavaScript,详细注释

Lee Chen

大前端 LeetCode

程序的机器级表示-数组的分配和访问

引花眠

计算机基础

握草,你竟然在代码里下毒!

小傅哥

Java 程序员 小傅哥 bug 有毒代码

不支持原子性的 Redis 事务也叫事务吗?

大头星

Java redis 事务

用函数式写法精简Java代码的一个例子

Sean

Java 函数式编程

oeasy教您玩转linux010206 蒸汽机车 sl

o

你问我答:容器平台改造后的安全是如何解决的?

BoCloud博云

云计算 容器 微服务 PaaS 博云

云原生 go-zero 微服务框架

万俊峰Kevin

微服务 microservice go-zero Go 语言

透彻理解AQS源码分析系列之AQS基础二

InfoQ_d2212957090d

一点思考|工作十几年了,竟从未用过do-while!

王磊

Java

Go: gops如何与Go运行时交互?

陈思敏捷

gops Go 语言

架构师训练营第十三周总结

张明森

Spring 5 中文解析测试篇-Spring测试

青年IT男

Spring5 JUnit

3. 站在使用层面,Bean Validation这些标准接口你需要烂熟于胸

YourBatman

Hibernate-Validator Bean Validation 数据校验

ARTS打卡 第15周

引花眠

微服务 ARTS 打卡计划

[翻译] Go Concurrency Patterns: Pipelines and cancellation[Go并发模式]

卓丁

channel pipeline

阿里巴巴发布国内首个公益区块链标准 用技术让公益公开透明

CECBC

区块链 公益

翻转链表,机器学习视觉训练,对数据的人工标注,使信息丢失,John 易筋 ARTS 打卡 Week 16

John(易筋)

大数据 学习 ARTS 打卡计划 翻转链表 Google论文评判人工预处理

学习 Java,有什么书籍推荐?学习的方法和过程是怎样的?

沉默王二

Java 学习 程序员 书单

苹果开源一个可提升Apache Spark向量处理速度的插件_实时计算_Joab Jackson_InfoQ精选文章