写点什么

苹果开源一个可提升 Apache Spark 向量处理速度的插件

  • 2024-02-23
    北京
  • 本文字数:1152 字

    阅读完需:约 4 分钟

大小:543.00K时长:03:05
苹果开源一个可提升Apache Spark向量处理速度的插件

本文最初发布于 THENEWSTACK。



消费电子巨头苹果公司发布了一个开源插件,可以帮助Apache Spark更有效地执行向量搜索,使开源数据处理平台在大规模机器学习数据处理方面变得更有吸引力。

 


 (点击查看大图)

 

这个基于Rust的插件名为Apache Spark DataFusion Comet。苹果工程师已经将其提交给了Apache软件基金会,使其成为Apache Arrow项目下的一个子项目。该插件是以可扩展的Apache DataFusion查询引擎(也是用Rust编写的)和Arrow列式数据格式为基础构建的。

 

“我们的目标是通过将 Spark 的物理计划执行委托给 DataFusion 的高度模块化执行框架来加速 Spark 查询执行,同时在 Spark 用户看来语义不变,”苹果软件工程师Chao SunApache邮件列表中解释道。

 

Sun 指出,该项目的功能尚未全部开发完成,但部分功能已经应用于生产环境。

 

Apache Arrow项目管理委员会主席 Andy Grove 在X上指出:“对于最近每个人都在谈论的可组合数据系统概念,这就是一个很好的例子。利用 Spark 非常成熟的计划和调度,并将其委托给 DataFusion 进行本地执行。”

 

Apache Arrow DataFusion Comet 是什么?

利用 Apache Arrow DataFusion 运行时,Comet 可以使用 Apache Arrow 列式格式查询数据。这种方法旨在通过本机向量化执行来改进查询效率和查询运行时。

 

Apache Spark创建于 2010 年,用于处理各种格式化和非格式化结构(“大数据”)中的大量分布式数据

 

向量处理已经成为机器学习社区最受欢迎的技术,因为它可以缩短分析大量数据的时间。

 

Fivetran 高级产品布道师Charles Wang上个月的一篇分析文章中写道,“向量化查询可以操作批量数据并并行处理多个数据元素,改善了分析查询的性能、效率、可扩展性和内存占用。它与列式数据库架构有着千丝万缕的联系,因为它允许将整个列加载到 CPU 寄存器中进行处理。”

 

按照设计,Comet 的特性会与 Spark 保持对等(目前支持 Spark 3.2 到 3.4 版本)。也就是说,无论是否使用 Comet 扩展,用户都可以运行同样的查询。

 

Spark 内置的表达式和操作符(Filter/Project/Aggregation/Join/Exchange)可以在 Comet 中使用,Apache Parquet列式存储格式也可以,无论是读模式还是写模式。

 

Comet 可以在 Linux 或 Mac OS 上运行,需要 JDK 8 及以上版本和 GLIBC 2.17。



 (点击查看大图)

 

其他可加速向量处理的 Spark 插件

软件工程师 Chris Riccomini指出,苹果公司并不是FAANG俱乐部中唯一对向量处理感兴趣的成员。去年,Meta 也发布了自己的 Spark 向量处理项目:Velox

 

类似的项目还包括英特尔的Gluten(最近被接收进入ASF孵化)、英伟达GPU RAPIDS Spark加速器Blaze(也可与Apache Arrow DataFusion搭配使用),以及Ballista分布式 SQL 查询引擎。

 

声明:本文为 InfoQ 翻译,未经许可禁止转载。

 

原文链接:https://thenewstack.io/apple-comet-brings-fast-vector-processing-to-apache-spark

2024-02-23 14:467774

评论

发布
暂无评论
发现更多内容

Serverless 工程实践 | Serverless 应用开发观念的转变

阿里巴巴云原生

Serverless Serverless架构

面试竟然被这31道Java基础题难倒了,被阿里面试官征服了

Java 程序员 后端

面试被问Tomcat整体架构设计,深入浅出Java开发

Java 程序员 后端

Vite + Vue3 + OpenLayers 手动控制缩放级别

德育处主任

大前端 地图 vite openlayers Vue 3

ResNet-50 在 ImageNet-1k 上的实验笔记

毛显新

人工智能 神经网络 深度学习 卷积神经网络 PyTorch

KubeVirt with YRCloudFile 擦出创新的火花

焱融科技

云原生 文件存储 虚拟化 高性能, 分布式存储,

南京主题展2021国际大数据产业展会/论坛会

南京专业智博会

大数据 智博会 南京智博会

(AL智博会)2021南京国际人工智能主题展

南京专业智博会

人工智能展览会 人工智能论坛会 人工智能智博会

模块3作业

Ping

面试官都被搞懵了,阿里P7亲自讲解

Java 程序员 后端

华为大神用前半生经验所写的SpringBoot全优笔记,现无偿与大家分享!

Java 华为 程序员 面试 计算机

webrtc simulcast 开启

webrtc developer

webrtc、 simulcast,

小白都能看懂的JVM知识,一文带你学会JVM内存模型!

华为云开发者联盟

Java JVM 内存管理 Java虚拟机 JVM内存模型

SQL注入详解

行者AI

测试

学生管理系统整理架构设计

小智

架构训练营

研发工具链介绍

百度开发者中心

学习 最佳实践 方法论 研发工具

面试官问的那些Java原理你都懂吗,Java面试手写代码题目

Java 程序员 后端

面试讲不清MySQL索引底层,Java面试

Java 程序员 后端

恒源云(GpuShare)_GPU租用保姆级教程,助力深度学习训练!

恒源云

Alibaba船新制作“Java架构核心宝典”,全是流行技术,限时开放

Java 程序员 架构 面试 计算机

阿里大佬怒写“Java初学者宝典”,让你就业没压力

Java 阿里巴巴 程序员 面试 计算机

Alibaba内部最新Java架构核心宝典 (全彩版小册开源)

Java 程序员 架构 面试 计算机

Python基础综合练习1

在即

9月日更

用遗传算法进行智能排课,相信老师会很喜欢

华为云开发者联盟

AI 编码 遗传算法 算子 课程编排

Apache APISIX 为 KubeSphere 提供更好用的网关及 K8S Ingress Controller

API7.ai 技术团队

Apache 开源 API网关 APISIX KubeSphere

物联世界2021南京物联网展览会

南京专业智博会

物联网展览会 物联网论坛会 物联网智博会

面试官手里那些秀你一脸的求质数大法,疯狂复习半个月

Java 程序员 后端

【Vuex 源码学习】第四篇 - Vuex 中 Getters 的实现

Brave

源码 vuex 9月日更

2021南京国际智慧工地装备展览会

南京专业智博会

智博会 智慧工地展览会 智慧工地论坛会

你的工作谁做主?

产品运营心经

工作效率 职场成长

金九银十涨薪50%,从默默无闻,到坐上美团L8技术专家(面经+心得)

Java 编程 程序员 架构 面试

苹果开源一个可提升Apache Spark向量处理速度的插件_实时计算_Joab Jackson_InfoQ精选文章