写点什么

顶级项目 Apache Arrow 被业界大量采用,Apache 软件基金会骄傲总结其发展潜力

  • 2019-02-27
  • 本文字数:1415 字

    阅读完需:约 5 分钟

顶级项目Apache Arrow被业界大量采用,Apache软件基金会骄傲总结其发展潜力

马萨诸塞州维克菲尔德,2019 年 2 月 19 日消息:Apache 软件基金会(Apache Software Foundation,简称 ASF)宣布了大数据列式内存数据平台 Apache Arrow 的发展势头。


Arrow 已经被数十个开源和商业技术方案所采用,在作为 Apache 顶级项目的前三年月下载量超过 1 百万。


自从 2016 年 1 月该项目成立以来,Arrow 已经迅速成长为在内存中表示和处理分析数据的事实标准,把分析处理和交换的速度提高了 100 多倍。


Arrow 副总裁 Jacques Nadeau 说:“在 Arrow 成为顶级项目时,我们预测世界上大多数数据将在未来 10 年中通过 Arrow 进行处理。仅仅过了 3 年,我们就看到 Arrow 在各种分析、机器学习和人工智能工作负载中出现了大量的业界采用,并实现了价值增长。”


Arrow 的亮点包括:


业界采用:超过 20 种重要技术采用 Arrow 来加快内存分析,其中包括 Apache Spark、NVIDIA RAPIDS、pandas 和 Dremio,等等。已知开源和商业的实现方案列表可以在https://arrow.apache.org/powered_by/上找到。


数百万次下载:众多其他技术对 Arrow 的采用和集成带来了超过 1 百万次的月下载量。


新语言支持:作为跨语言开发平台,支持多种编程语言是重中之重。Arrow 已经从支持一种语言发展到如今能支持 11 种不同的语言,其中包括 C++、Java、Python、R、C#、JavaScrip 和 Ruby,等等。


无缝数据格式支持:Arrow 支持不同数据类型,无论是简单类型还是嵌套类型,只要它们存在于内存中,如常规的系统 RAM、内存映射文件或 GPU 内存。此外,它还可以从流行的存储格式(如 Apache Parquet、CSV 文件、Apache ORC、JSON,等等)中摄取数据。


主要代码捐赠:Arrow 的新功能和扩展功能要归功于部分代码和组件的捐赠:


  • C#库

  • 基于 Gandiva LLVM 的表达式编译器

  • Go 库

  • JavaScript 库

  • Plasma 共享内存对象存储

  • Ruby 库(Arrow 和 Apache Parquet)

  • Rust 库(Parquet 和 DataFusion 查询引擎)


社区和捐献者的增长:在过去 12 个月中,近 300 位个人贡献者提交了 3 千多次代码,使 Arrow 代码库增加了 30 万行代码。Arrow 社区每个月有约 10 个新贡献者加入。


2019 年 1 月,该项目发布了最新版本 Arrow 0.12.0,带来了在 2018 年第 4 季度期间开发的 600 多项增强功能。Arrow 社区正致力于采取一系列有影响力的新举措,包括解决高性能分析问题和支持更高效的集群数据分布。


Arrow 项目管理委员会成员以及 pandas 项目创建人 Wes McKinney 表示:“Arrow 在业界的快速采用和开发人员社区的快速发展证实了我们最初的观点,即独立于语言的列式数据开放标准非常重要。另外,我们看到,不仅在编程语言之间,而且在数据库系统和数据科学领域之间都产生了富有成效的合作。我们期望有更多数据系统开发人员能够加入我们的社区。”


Arrow 简介


Arrow 是用于处理内存数据的跨语言开发平台。它为平面和分层数据指定了独立于语言的标准化列式内存格式,可在现代硬件上进行高效的分析操作。它还提供了计算库和零拷贝流式消息传递和进程间通信。目前支持的语言包括 C 语言、C++、C#、Go、JavaScript、MATLAB、Python、R 语言、Ruby 和 Rust。


可用性和监督


Arrow 基于 Apache License v2.0 许可发行,由项目活跃贡献者自选团队进行监督。项目委员会(PMC)指导项目的日常运营工作,包括社区开发和产品发布。关于文件下载、文档信息和加入 Arrow 的方法,请参考以下链接:http://arrow.apache.org/


阅读英文原因:https://blogs.apache.org/foundation/entry/the-apache-software-foundation-announces46


2019-02-27 17:0113728
用户头像

发布了 199 篇内容, 共 94.8 次阅读, 收获喜欢 295 次。

关注

评论

发布
暂无评论
发现更多内容

“十四五”规划,开源重塑软件发展新生态,获国家重点扶持

腾源会

开源

跟着动画学Go数据结构之插入排序

宇宙之一粟

golang 数据结构 插入排序 12月日更

手写清除console的loader

编程江湖

前端开发

一文讲述数仓组件SysCache

华为云开发者联盟

事务 存储 GaussDB(DWS) SysCache 缓存信息

东汉末年,他们把「服务雪崩」玩到了极致

悟空聊架构

熔断 28天写作 服务雪崩 悟空聊架构 12月日更

【漫画】数据云,真香在哪?

星环科技

大数据

元气部落盲盒系统开发元气部落app开发

风行无疆

未来企业如何应对人才之争

BeeWorks

联邦学习在光大科技的落地应用

博文视点Broadview

资讯|WebRTC M95 更新

网易云信

WebRTC

给弟弟的信第15封|情绪控制的重要性

大菠萝

28天写作

从前端到全栈 -- 最全面向对象总结

程序员海军

Java 面向对象

实用机器学习笔记十六:循环神经网络

打工人!

深度学习 学习笔记 循环神经网络 机器学习算法 12月日更

Android aapt 在 Mac 和 Windows 上使用方法小结

阿策小和尚

28天写作 Android 小菜鸟 12月日更

AI 收藏夹 Vol.004:虚拟爱豆出道!

Zilliz

人工智能 神经网络 AI

简述移动端IM开发的那些坑:架构设计、通信协议和客户端

BeeWorks

Linux 基金会发布 2021 年度报告,预测今年收入为 1.77 亿美元

腾源会

Linux 开源

重磅|腾讯云开源业界首个 etcd 一站式治理平台 Kstone

腾源会

开源 cncf Kstone

Nebula Graph 源码解读系列 | Vol.06 MATCH 中变长 Pattern 的实现

NebulaGraph

图数据库 知识图谱 分布式图数据库

今夜无眠

Tiger

28天写作

5G专网+区块链:构筑智慧政务“安全信任基石”

CECBC

前端开发之Vue框架的优势

@零度

前端开发 Vue优势

超细!细说Zookeeper选举的一个案例(上)

恒生LIGHT云社区

golang zookeeper Go 语言

中石化信息化数字化首席专家李剑峰:数字化转型中关键基础软件的国产化应用

OceanBase 数据库

开源 国产化 oceanbase 中石化

Java 集合框架面试问题集锦

编程江湖

面试题 JAVA开发 java编程

明道云荣获2021亚洲最佳职场“最佳创新奖”荣誉!

明道云

华为硬件配置命令,建议收藏

Ethereal

网络工程师 网络技术 华为设备 厂商设备 运维技术

神器来袭,手把手教你使用 Milvus_cli

Zilliz

数据库 命令行

PingCAP 入选 CB Insights 中国「数据链路安全领航者」榜单,保障全球用户存储安全

PingCAP

Java Web开发之API Boy的进阶之路

@零度

Java web API boy

顶级项目Apache Arrow被业界大量采用,Apache软件基金会骄傲总结其发展潜力_大数据_Apache软件基金会_InfoQ精选文章