写点什么

顶级项目 Apache Arrow 被业界大量采用,Apache 软件基金会骄傲总结其发展潜力

  • 2019-02-27
  • 本文字数:1415 字

    阅读完需:约 5 分钟

顶级项目Apache Arrow被业界大量采用,Apache软件基金会骄傲总结其发展潜力

马萨诸塞州维克菲尔德,2019 年 2 月 19 日消息:Apache 软件基金会(Apache Software Foundation,简称 ASF)宣布了大数据列式内存数据平台 Apache Arrow 的发展势头。


Arrow 已经被数十个开源和商业技术方案所采用,在作为 Apache 顶级项目的前三年月下载量超过 1 百万。


自从 2016 年 1 月该项目成立以来,Arrow 已经迅速成长为在内存中表示和处理分析数据的事实标准,把分析处理和交换的速度提高了 100 多倍。


Arrow 副总裁 Jacques Nadeau 说:“在 Arrow 成为顶级项目时,我们预测世界上大多数数据将在未来 10 年中通过 Arrow 进行处理。仅仅过了 3 年,我们就看到 Arrow 在各种分析、机器学习和人工智能工作负载中出现了大量的业界采用,并实现了价值增长。”


Arrow 的亮点包括:


业界采用:超过 20 种重要技术采用 Arrow 来加快内存分析,其中包括 Apache Spark、NVIDIA RAPIDS、pandas 和 Dremio,等等。已知开源和商业的实现方案列表可以在https://arrow.apache.org/powered_by/上找到。


数百万次下载:众多其他技术对 Arrow 的采用和集成带来了超过 1 百万次的月下载量。


新语言支持:作为跨语言开发平台,支持多种编程语言是重中之重。Arrow 已经从支持一种语言发展到如今能支持 11 种不同的语言,其中包括 C++、Java、Python、R、C#、JavaScrip 和 Ruby,等等。


无缝数据格式支持:Arrow 支持不同数据类型,无论是简单类型还是嵌套类型,只要它们存在于内存中,如常规的系统 RAM、内存映射文件或 GPU 内存。此外,它还可以从流行的存储格式(如 Apache Parquet、CSV 文件、Apache ORC、JSON,等等)中摄取数据。


主要代码捐赠:Arrow 的新功能和扩展功能要归功于部分代码和组件的捐赠:


  • C#库

  • 基于 Gandiva LLVM 的表达式编译器

  • Go 库

  • JavaScript 库

  • Plasma 共享内存对象存储

  • Ruby 库(Arrow 和 Apache Parquet)

  • Rust 库(Parquet 和 DataFusion 查询引擎)


社区和捐献者的增长:在过去 12 个月中,近 300 位个人贡献者提交了 3 千多次代码,使 Arrow 代码库增加了 30 万行代码。Arrow 社区每个月有约 10 个新贡献者加入。


2019 年 1 月,该项目发布了最新版本 Arrow 0.12.0,带来了在 2018 年第 4 季度期间开发的 600 多项增强功能。Arrow 社区正致力于采取一系列有影响力的新举措,包括解决高性能分析问题和支持更高效的集群数据分布。


Arrow 项目管理委员会成员以及 pandas 项目创建人 Wes McKinney 表示:“Arrow 在业界的快速采用和开发人员社区的快速发展证实了我们最初的观点,即独立于语言的列式数据开放标准非常重要。另外,我们看到,不仅在编程语言之间,而且在数据库系统和数据科学领域之间都产生了富有成效的合作。我们期望有更多数据系统开发人员能够加入我们的社区。”


Arrow 简介


Arrow 是用于处理内存数据的跨语言开发平台。它为平面和分层数据指定了独立于语言的标准化列式内存格式,可在现代硬件上进行高效的分析操作。它还提供了计算库和零拷贝流式消息传递和进程间通信。目前支持的语言包括 C 语言、C++、C#、Go、JavaScript、MATLAB、Python、R 语言、Ruby 和 Rust。


可用性和监督


Arrow 基于 Apache License v2.0 许可发行,由项目活跃贡献者自选团队进行监督。项目委员会(PMC)指导项目的日常运营工作,包括社区开发和产品发布。关于文件下载、文档信息和加入 Arrow 的方法,请参考以下链接:http://arrow.apache.org/


阅读英文原因:https://blogs.apache.org/foundation/entry/the-apache-software-foundation-announces46


2019-02-27 17:0113552
用户头像

发布了 199 篇内容, 共 89.9 次阅读, 收获喜欢 295 次。

关注

评论

发布
暂无评论
发现更多内容

大促秒杀场景技术方案

Mars

秒杀

强推!Java大牛熬夜一周梳理的 Spring IOC笔记,收藏一波

飞飞JAva

Java 容器

消息队列详细架构设计

Lane

消息队列架构设计文档

高亮

架构实战营

变电站无人值守也能运筹帷幄?数据这样监控,时效节省高达90%

一只数据鲸鱼

数据可视化 3D可视化 智慧电网 变电站

拜托阿里老表爆肝整理10W字Java高级面试精华!帮我成功入职字节

比伯

Java 编程 架构 互联网 计算机

☕【Java技术之旅】来啊!带你认识一下String字符串

码界西柚

JVM string 5月日更

【LeetCode】数组异或操作Java题解

Albert

算法 LeetCode 5月日更

React Hook | 必 学 的 9 个 钩子

程序员海军

最佳实践 方法论 大前端 React Hooks 引航计划

企业密码管理为何仍然是一个难题?

龙归科技

密码学 密码 弱密码

硬核资源!清华博士的Spring Boot中AOP与SpEL笔记,码农:膜拜

牛哄哄的java大师

Java springboot spring aop

微信标准版交易组件使用教程

frank-say

微信小程序 微信 大前端

技术干货 | 轻松两步完成向 mPaaS 小程序传递启动参数

蚂蚁集团移动开发平台 mPaaS

ios android 移动开发 mPaaS

大厂常问iOS面试题汇总!

iOS猿_员

ios 面试 ios开发

zookeeper的watch机制

大数据技术指南

zookeeper 5月日更

新建了一个Go项目的脚手架

soolaugust

GitHub 编程 Go 语言

Yarn的架构和原理

五分钟学大数据

hadoop YARN 5月日更

撸完腾讯T4大佬整理的ThreadLocal笔记,解决内存泄漏只是小儿科

牛哄哄的java大师

Java ThreadLocal

在校生丨五面丨拿到阿里offer,你还在边“摸鱼”边抱怨“行业内卷”吗?

Java架构师迁哥

直呼内行!靠着这份阿里10w字面试总结,我成功收到了4个大厂offer

Java 程序员 架构 面试

如何计算STM32定时器、独立看门狗和窗口看门狗

不脱发的程序猿

定时器 stm32 单片机 看门狗

敏捷MVP面面观

禅道项目管理

敏捷 MVP

新一代运营保障体系探索

鲸品堂

运营 解决方案 运营商 通信运营商

直呼内行!阿里大佬离职带出内网专属“高并发系统设计”学习笔记

Java 程序员 架构 面试

量化AI智能交易软件,马丁策略交易

模模搭古城搭建学习笔记4:完结篇

ThingJS数字孪生引擎

物联网 3D可视化 数字孪生

软件质量指标自动度量方法

鸿渐科技_mason

代码质量 源代码 软件安全 软件质量指标 鸿渐科技

这份Mybaits缓存机制总结,阿里大佬看完直呼牛批,到底有多强?

飞飞JAva

数据结构与算法必知基础知识

bigsai

数据结构 算法

iOS 面试策略之语言工具-Swift vs. Objective-C

iOSer

ios objective-c swift 面试 移动开发

详解 WebRTC 传输安全机制:一文读懂 DTLS 协议

阿里云CloudImagine

阿里云 WebRTC 通信协议 视频云 流媒体传输

顶级项目Apache Arrow被业界大量采用,Apache软件基金会骄傲总结其发展潜力_大数据_Apache软件基金会_InfoQ精选文章