【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

苹果开源一个可提升 Apache Spark 向量处理速度的插件

  • 2024-02-23
    北京
  • 本文字数:1152 字

    阅读完需:约 4 分钟

大小:543.00K时长:03:05
苹果开源一个可提升Apache Spark向量处理速度的插件

本文最初发布于 THENEWSTACK。



消费电子巨头苹果公司发布了一个开源插件,可以帮助Apache Spark更有效地执行向量搜索,使开源数据处理平台在大规模机器学习数据处理方面变得更有吸引力。

 


 (点击查看大图)

 

这个基于Rust的插件名为Apache Spark DataFusion Comet。苹果工程师已经将其提交给了Apache软件基金会,使其成为Apache Arrow项目下的一个子项目。该插件是以可扩展的Apache DataFusion查询引擎(也是用Rust编写的)和Arrow列式数据格式为基础构建的。

 

“我们的目标是通过将 Spark 的物理计划执行委托给 DataFusion 的高度模块化执行框架来加速 Spark 查询执行,同时在 Spark 用户看来语义不变,”苹果软件工程师Chao SunApache邮件列表中解释道。

 

Sun 指出,该项目的功能尚未全部开发完成,但部分功能已经应用于生产环境。

 

Apache Arrow项目管理委员会主席 Andy Grove 在X上指出:“对于最近每个人都在谈论的可组合数据系统概念,这就是一个很好的例子。利用 Spark 非常成熟的计划和调度,并将其委托给 DataFusion 进行本地执行。”

 

Apache Arrow DataFusion Comet 是什么?

利用 Apache Arrow DataFusion 运行时,Comet 可以使用 Apache Arrow 列式格式查询数据。这种方法旨在通过本机向量化执行来改进查询效率和查询运行时。

 

Apache Spark创建于 2010 年,用于处理各种格式化和非格式化结构(“大数据”)中的大量分布式数据

 

向量处理已经成为机器学习社区最受欢迎的技术,因为它可以缩短分析大量数据的时间。

 

Fivetran 高级产品布道师Charles Wang上个月的一篇分析文章中写道,“向量化查询可以操作批量数据并并行处理多个数据元素,改善了分析查询的性能、效率、可扩展性和内存占用。它与列式数据库架构有着千丝万缕的联系,因为它允许将整个列加载到 CPU 寄存器中进行处理。”

 

按照设计,Comet 的特性会与 Spark 保持对等(目前支持 Spark 3.2 到 3.4 版本)。也就是说,无论是否使用 Comet 扩展,用户都可以运行同样的查询。

 

Spark 内置的表达式和操作符(Filter/Project/Aggregation/Join/Exchange)可以在 Comet 中使用,Apache Parquet列式存储格式也可以,无论是读模式还是写模式。

 

Comet 可以在 Linux 或 Mac OS 上运行,需要 JDK 8 及以上版本和 GLIBC 2.17。



 (点击查看大图)

 

其他可加速向量处理的 Spark 插件

软件工程师 Chris Riccomini指出,苹果公司并不是FAANG俱乐部中唯一对向量处理感兴趣的成员。去年,Meta 也发布了自己的 Spark 向量处理项目:Velox

 

类似的项目还包括英特尔的Gluten(最近被接收进入ASF孵化)、英伟达GPU RAPIDS Spark加速器Blaze(也可与Apache Arrow DataFusion搭配使用),以及Ballista分布式 SQL 查询引擎。

 

声明:本文为 InfoQ 翻译,未经许可禁止转载。

 

原文链接:https://thenewstack.io/apple-comet-brings-fast-vector-processing-to-apache-spark

2024-02-23 14:467126

评论

发布
暂无评论

从海光看国内芯片行业崛起:技术研发是增长关键

打工人!

芯片 芯片行业 海光

技术分享 | 白盒测试方法论

霍格沃兹测试开发学社

使用 RediSearch 在 Redis 中进行全文检索

AlwaysBeta

redis redisearch

私有化部署企业IM即时通讯:提升效率、防止泄密、高效协同办公

WorkPlus

局域网部署,用WorkPlus视频会议保密又安全

WorkPlus

扎根x86市场稳步前进-海光投研报告解读

三掌柜

研究报告

海光财报解读:深耕研发,打造技术护城河

程序员海军

研究报告 海光

探索大模型应用,解决企业数字化转型“最后一公里”

中关村科金

技术分享 | Selenium多浏览器处理

霍格沃兹测试开发学社

技术分享 | 网页 frame 与多窗口处理

霍格沃兹测试开发学社

HDC.Together 华为开发者大会还有干货,开发者主题演讲明日举行

Geek_2d6073

面部表情识别在安全领域的应用

来自四九城儿

盘点国产CPU“六君子”之中科海光发展史

石云升

cpu 微处理器 中科海光

面部表情识别的伦理问题

来自四九城儿

app测试中常用的Android模拟器

霍格沃兹测试开发学社

面部表情识别在教育领域的应用

来自四九城儿

技术分享 | 黑盒测试方法论-判定表

霍格沃兹测试开发学社

【腾讯云Cloud Studio实战训练营】如何成为一名合格的Python爬虫“念咒师”(基于ChatGpt)

孤寒者

Python Cloud Studio Python爬虫 念咒师 念咒编程

详解 HashMap 的底层实现原理

树上有只程序猿

Java 数据结构 hashmap 哈希

appuploader不是开发者账号

雪奈椰子

华为负一屏全新体验,实时状态让服务快人一步

最新动态

Rust中的高吞吐量流处理

高端章鱼哥

rust 流处理

开源社区寻找八月创作之星!你准备好了吗~

Openlab_cosmoplat

人工智能 开源

华为正式发布HarmonyOS NEXT开发者预览版,携手开发者共赴鸿蒙生态星辰大海

Geek_2d6073

城市与AI,正待济沧海

脑极体

AI 大模型

准确率提升近4%,自研ASR模型助力公安机关筑牢反诈安全网

中关村科金

技术分享 | web前端的HTML浅析

霍格沃兹测试开发学社

AI +悦数图数据库:图技术与大语言模型 LLM 结合,打造下一代知识图谱应用

最新动态

appuploader不是开发者账号

What's the difference between Maxon WiFi6 4x4 M.2 industrial Wireless Module with QCN9074 & QCN9024?

wifi6module

QCN9074 QCN9024

组织门户支持成员自主公开,快速搭建内容|ModelWhale 版本更新

ModelWhale

云计算 数据分析 API 算力 数据门户

苹果开源一个可提升Apache Spark向量处理速度的插件_实时计算_Joab Jackson_InfoQ精选文章