大厂Data+Agent 秘籍:腾讯/阿里/字节解析如何提升数据分析智能。 了解详情
写点什么

Julien Le Dem 对使用 Apache Arrow 进行面向列的数据处理的未来的看法

  • 2016-12-22
  • 本文字数:1620 字

    阅读完需:约 5 分钟

Julien Le Dem 是 Apache Parquet 的合著者,也是 Apache Arrow 项目的项目管理委员会成员,他在 Data Eng Conf NY 上介绍了面向列的数据处理的未来。

Apache Arrow 是在内存中执行列式计算的开源标准,源于 Apache Drill 的内存列式数据结构。Apache Arrow 旨在成为有效地在内存中保存数据并在不同执行引擎之间交换数据的事实上的方式,从而避免序列化。它由 13 个开源项目的主要开发人员提供支持,这些开源项目主要来自 Apache,包括 Calcite Drill Pandas HBase Spark Storm

InfoQ 采访了 Le Dem,以了解 Arrow 和 Parquet 的区别以及二者如何能支持更高效的跨执行引擎的计算。Parquet 是一个磁盘上的列式存储格式。

InfoQ:你觉得 Apache Arrow 会像 Parquet 一样在 Apache Spark 这样的执行引擎上商品化(commoditized)吗?你认为它会缩小引擎间的性能差距吗?

Le Dem: MonetDB 开始,矢量化执行是最先进的高效查询处理方式。 许多开源查询引擎正在转向这个模型,我们认为有必要标准化内存中的列式表示以提供极高效的互操作性。Parquet 提供的列式存储功能,Arrow 以内存中的列式处理和互换提供了。

这些标准化努力极大地简化了存储层、查询引擎、 DSL UDF 之间的集成,并通过消除序列化提供了更高效的通信层。通过消除公共的瓶颈,标准化让所有系统进行互操作变得更简单、更便宜、更快速了。然而,通过提供专业的技术进一步提升性能,比如基于压缩向量的操作或者更智能的查询优化器,每个执行引擎还有很大的创新空间。

InfoQ:Apache Parquet 支持谓词下推(predicate pushdown),避免了只要页面不包含匹配谓词的数据就从磁盘读取数据的问题。Apache Arrow 的数据结构包含类似的功能吗?

Le Dem:它们在从磁盘读数据和从内存读数据的取舍上是不同的。当前,谓词下推的实现取决于引擎。虽然还没有开始,但是 Apache Arrow 最终会提供能跨引擎重用的快速矢量化操作。

InfoQ:Arrow 的目标之一是提供对内存数据的恒定时间访问,并通过 SIMD 指令支持矢量化操作。 Arrow 也像 Parquet 一样提供内存数据压缩吗?

Le Dem: Arrow 支持字典编码,能提供优秀的压缩效果,让聚合和连接这类操作更快地运行。现在也有一个正在进行的讨论,要使用像 snappy 或者 gzip 这样的通用算法来提供泛化的缓冲压缩。

在这个初始版本中,Arrow 还不支持其他压缩技术,如位打包(bit packing)。然而,在使用标准向量进行数据交换的前提下,我们打算让执行引擎能够定义自定义向量。这将允许更高级的技术,例如直接操作压缩向量。 我想到的一个例子是威斯康星大学 BitWeaving 项目。 在将来,标准向量的集合将会扩充。

Arrow 的第一个版本提供了Pandas 库、Arrow 和Parquet 之间的基于C++ 的本地集成,让Arrow 的Record Batches 能作为 Pandas 的 dataframe 操作并暴露给像 Apache Drill 这样的基于 Hadoop 的 SQL 引擎(SQL-on-Hadoop engine)。

InfoQ:Apache Arrow 支持互操作,让数据不需要序列化就可以在进程间传输。你能点评一下 Arrow 的 IPC 层的能力吗?

Le Dem: IPC 层仍然处于试验阶段,它是一个真正的零复制(zero-copy)层。当 Arrow 的 Record Batch 完成时,它变成不可变的。在此状态下,它可以使用共享内存以只读模式与其他进程共享,而不必担心并发访问。矢量表示独立于其内存地址(不需要绝对指针),并且可以安全地用在共享内存中,每个进程看到的缓冲器地址是不同的。

InfoQ:与 Parquet 一样,Apache Arrow 支持嵌套数据类型。它当前支持哪些类型,哪些类型在计划中呢?

Le Dem: Arrow 支持所有常见的数据类型。这是迄今为止相当全面的一份列表了。最近又添加了一些类型,包括 SQL 的 Timestamp 和 Interval。

查看英文原文: Julien Le Dem on the Future of Column-Oriented Data Processing with Apache Arrow


感谢冬雨对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016-12-22 18:003554
用户头像

发布了 33 篇内容, 共 12.5 次阅读, 收获喜欢 10 次。

关注

评论

发布
暂无评论
发现更多内容

抖音电商如何用扣子 Coze 打造 AI 客服?

火山引擎开发者社区

CommunityOverCode Asia 2025议题征集倒计时,DataOps 分论坛等你发声

白鲸开源

欢迎 Apache SeaTunnel 新晋 Committer 王超

白鲸开源

“敏捷产品管理精进课程” 6月14-15日 · A-CSPO认证【提前报名特惠】

ShineScrum

敏捷 PO 敏捷教练 产品负责人 CSPO认证

K8S 部署 Deepseek 要 3 天?别逗了!Ollama+GPU Operator 1 小时搞定

北京好雨科技有限公司

k8s rainbond 企业号 4 月 PK 榜 gpu 算力 DeepSeek R1 模型

热门活动速递 | AI 原生应用开发实战营·深圳站

阿里巴巴云原生

阿里云 云原生

一键部署 Dify + MCP Server,高效开发 AI 智能体应用

阿里巴巴云原生

质量管理中的IQC、PQC、FQC、OQC

积木链小链

质量管理 数字化 智能制造

人工智能与网络安全:AI如何预防、检测和应对网络攻击?

天津汇柏科技有限公司

人工智能 网络安全 AI 人工智能

AI重构商品计划管理:时尚品牌决胜未来的四大核心能力

第七在线

深入研究:1688商品跨境属性API接口详解

tbapi

1688API 1688跨境代采 1688商品属性接口 1688跨境属性接口

出版社题库管理系统的技术架构

北京木奇移动技术有限公司

软件外包公司 出版社 题库管理系统

TLM算法仿真5G毫米波手机天线和整机

思茂信息

5G 仿真 CST Studio Suite

出版社题库管理系统的技术难点

北京木奇移动技术有限公司

软件外包公司 出版社 题库系统开发

如何开拓亚洲加密货币市场?一文解析亚洲国家差异、用户行为及市场特征

TechubNews

加密市场

在BeeWorks中,网盘和即时通讯如何互相集成?

BeeWorks

即时通讯 IM 企业级应用

乐言科技:云原生加速电商行业赋能,云消息队列助力降本 37%

阿里巴巴云原生

阿里云 云原生

ArkUI-X 5.0.4 Release:跨平台开发的全新体验

坚果

鸿蒙 HarmonyOS 坚果派

内部聊天软件,BeeWorks-安全的企业内部通讯软件

BeeWorks

即时通讯 IM 私有化部署 局域网视频软件

广告营销行业使用堡垒机的场景简单聊聊

行云管家

网络安全 信息安全

域名有哪些状态?不同的域名状态分别代表什么意思?

国科云

[方法讨论]手机号码批量导入手机通讯录,导入苹果iphone通讯录华为手机小米手机等安卓手机

一码平川

博睿数据受邀出席“AI助力湾区数智金融会议”,分享主题演讲

博睿数据

基于 PHP/Java 的淘宝 API 调用实践:从商品详情页 JSON 数据解析到结构化重构

代码忍者

淘宝API接口

AI与智能客服:如何让AI为企业提供更高效、更人性化的客户服务?

天津汇柏科技有限公司

人工智能 智能客服 AI 人工智能

重构智能设备管理范式:火山引擎端智能解决方案上新,多重 AI 服务即刻享用!

火山引擎开发者社区

行业热点丨为什么AI驱动工程对汽车设计和轻量化至关重要?

Altair RapidMiner

人工智能 AI 汽车 数字孪生 CAE

【FAQ】HarmonyOS SDK 闭源开放能力 —Health Service Kit

HarmonyOS SDK

harmoyos

巴塞罗那对阵塞尔塔:一场事关竞逐西甲联赛冠军与冲击欧战资格的较量

新消费日报

25年IT信息安全靠谱保障办法看这里!

行云管家

网络安全 信息安全 IT安全

出版社题库管理系统的测试

北京木奇移动技术有限公司

软件外包公司 出版社 题库系统开发

Julien Le Dem对使用Apache Arrow进行面向列的数据处理的未来的看法_大数据_Alexandre Rodrigues_InfoQ精选文章