Apache Arrow Flight:快速数据传输框架

2019 年 11 月 11 日

Apache Arrow Flight:快速数据传输框架

在过去 18 个月,Apache Arrow 社区一直忙于设计和实施 Flight,这是一个新的通用客户端服务器框架,用于简化大型数据集通过网络接口的高性能传输。本文介绍了 Apache Arrow Flight 的起源、基础知识、优点、示例及对未来的展望。

Flight 最初专注于 Arrow Columnar Format(比如,Arrow record batch)通过 gRPC 传输的优化,gRPC 是谷歌流行的基于 HTTP/2 的通用 RPC 库和框架。尽管专注于集成 gRPC,但作为开发框架,Flight 并不专用于 gRPC。

Flight 与其他数据传输框架最大的区别是并行传输,其允许数据以流的形式同时进出服务器集群,这让开发人员可以更轻松地创建可扩展的数据服务,为不断增长的客户群提供服务。

在 0.15.0 Apache Arrow 版本中,提供了 C++(具有 Python 绑定)和 Java 的即用型 Flight 实现。这些库适用于 beta 版用户,他们习惯 API 或协议更改,而我们将继续完善 Flight 内部的底层细节。

开发契机

很多开发者都体会过通过网络访问大型数据集的痛苦。有很多不同的传输协议和工具用于从远程数据服务中读取数据集,这些远程数据服务包括 ODBC 和 JDBC 等。在过去 10 年,基于文件的数据仓库,比如 CSV、Avro 和 Parquet 的格式已经变得很受欢迎,但也带来了挑战,因为原始数据必须在反序列化之前传输到本地主机。

原文链接:【 https://www.infoq.cn/article/zT4Y91uhy84a2UGUK91R 】。未经作者许可,禁止转载。

登录后可解锁全站优质内容

免费畅享技术公开课、顶尖技术团队访谈、一线互联网大厂技术实践

文章
视频
电子书
研究报告
立即登录
2019 年 11 月 11 日 09:07 2420
用户头像
赵钰莹 InfoQ高级编辑

发布了 383 篇内容,共 1888 次阅读,收获喜欢 6 次。

关注

评论

发布
暂无评论
发现更多内容

巡展2020第十三届亚洲国际物联网展览会-南京站

InfoQ_caf7dbb9aa8a

永续合约系统开发源码,区块链合约交易所搭建

WX13823153201

高难度对话读书笔记—认知篇2

wo是一棵草

关于Java 编译Servlet或者自定义Tag,引入包的问题

谷鱼

Java web

监控应用,应该监控什么?

小清新同学

云计算 运维 监控

收藏+下载!Flink 社区最全学习渠道汇总

Apache Flink

flink

Go中的HTTP请求之——HTTP1.1请求流程分析

新世界杂货铺

go golang HTTP Go web

Dolphinscheduler系统架构设计

dll

Apache DolphinScheduler

MySQL varchar类型最大值,原来一直都理解错了

架构精进之路

MySQL varchar

三步带你开发一个短链接生成平台

Geek_Willie

JavaScript SpreadJS Node

如何快速制造OOM

Since

JVM OOM

从大数据的角度来谈谈运维监控这件事儿

小清新同学

运维 监控

缓存解决方案-技术专题-Caffeine Cache

李博@Alex

难得干货,揭秘支付宝的2维码扫码技术优化实践之路

JackJiang

支付宝

什么才是“应用拓扑”?

小清新同学

运维 监控

程序执行太慢?快来学习SIMD加速技术,这个案例下的加速效果我也没想到(附带动手实验)

Optimize-Lab

go 优化代码 优化技巧 开源社区 simd

自己动手写SQL执行引擎

无毁的湖光

Java MySQL 数据库 Linux 算法

java安全编码指南之:可见性和原子性

程序那些事

Java java安全编码 java编码指南 java安全编码指南

项目实战,动态增删form表单

麦叔

jquery 克隆

如何设计Go语言中的channel

soolaugust

go channel goroutines

Python 自动化测试全攻略:五种自动化测试模型实战详解

Geek_Willie

自动化测试

架构师训练营第 1 期第 2 周学习总结

du tiezheng

架构师训练营第 1 期

架构师训练营第 1 期第 2周作业

du tiezheng

架构师训练营第 1 期

2B还是2C,这真是个问题

码闻强

SaaS

上班路上也是一道美景

xcbeyond

生活 摄影

架构师训练营第 2 周作业

netspecial

架构师训练营第 1 期

保留时序数据波动细节的一种采样算法

小清新同学

监控 时序数据库

让世界为之赞叹的开源项目,除了Linux,你知道Git吗?

小Q

Java git 学习 程序员 面试

TensorFlow 篇 | TensorFlow 2.x 基于 Keras 模型的本地训练与评估

Alex

tensorflow 模型训练 keras

不一样的面向对象(二)

书旅

php 面向对象

架构师训练营第二周作业

尹斌

Apache Arrow Flight:快速数据传输框架-InfoQ