【AICon】探索RAG 技术在实际应用中遇到的挑战及应对策略!AICon精华内容已上线73%>>> 了解详情
写点什么

顶级项目 Apache Arrow 被业界大量采用,Apache 软件基金会骄傲总结其发展潜力

  • 2019-02-27
  • 本文字数:1415 字

    阅读完需:约 5 分钟

顶级项目Apache Arrow被业界大量采用,Apache软件基金会骄傲总结其发展潜力

马萨诸塞州维克菲尔德,2019 年 2 月 19 日消息:Apache 软件基金会(Apache Software Foundation,简称 ASF)宣布了大数据列式内存数据平台 Apache Arrow 的发展势头。


Arrow 已经被数十个开源和商业技术方案所采用,在作为 Apache 顶级项目的前三年月下载量超过 1 百万。


自从 2016 年 1 月该项目成立以来,Arrow 已经迅速成长为在内存中表示和处理分析数据的事实标准,把分析处理和交换的速度提高了 100 多倍。


Arrow 副总裁 Jacques Nadeau 说:“在 Arrow 成为顶级项目时,我们预测世界上大多数数据将在未来 10 年中通过 Arrow 进行处理。仅仅过了 3 年,我们就看到 Arrow 在各种分析、机器学习和人工智能工作负载中出现了大量的业界采用,并实现了价值增长。”


Arrow 的亮点包括:


业界采用:超过 20 种重要技术采用 Arrow 来加快内存分析,其中包括 Apache Spark、NVIDIA RAPIDS、pandas 和 Dremio,等等。已知开源和商业的实现方案列表可以在https://arrow.apache.org/powered_by/上找到。


数百万次下载:众多其他技术对 Arrow 的采用和集成带来了超过 1 百万次的月下载量。


新语言支持:作为跨语言开发平台,支持多种编程语言是重中之重。Arrow 已经从支持一种语言发展到如今能支持 11 种不同的语言,其中包括 C++、Java、Python、R、C#、JavaScrip 和 Ruby,等等。


无缝数据格式支持:Arrow 支持不同数据类型,无论是简单类型还是嵌套类型,只要它们存在于内存中,如常规的系统 RAM、内存映射文件或 GPU 内存。此外,它还可以从流行的存储格式(如 Apache Parquet、CSV 文件、Apache ORC、JSON,等等)中摄取数据。


主要代码捐赠:Arrow 的新功能和扩展功能要归功于部分代码和组件的捐赠:


  • C#库

  • 基于 Gandiva LLVM 的表达式编译器

  • Go 库

  • JavaScript 库

  • Plasma 共享内存对象存储

  • Ruby 库(Arrow 和 Apache Parquet)

  • Rust 库(Parquet 和 DataFusion 查询引擎)


社区和捐献者的增长:在过去 12 个月中,近 300 位个人贡献者提交了 3 千多次代码,使 Arrow 代码库增加了 30 万行代码。Arrow 社区每个月有约 10 个新贡献者加入。


2019 年 1 月,该项目发布了最新版本 Arrow 0.12.0,带来了在 2018 年第 4 季度期间开发的 600 多项增强功能。Arrow 社区正致力于采取一系列有影响力的新举措,包括解决高性能分析问题和支持更高效的集群数据分布。


Arrow 项目管理委员会成员以及 pandas 项目创建人 Wes McKinney 表示:“Arrow 在业界的快速采用和开发人员社区的快速发展证实了我们最初的观点,即独立于语言的列式数据开放标准非常重要。另外,我们看到,不仅在编程语言之间,而且在数据库系统和数据科学领域之间都产生了富有成效的合作。我们期望有更多数据系统开发人员能够加入我们的社区。”


Arrow 简介


Arrow 是用于处理内存数据的跨语言开发平台。它为平面和分层数据指定了独立于语言的标准化列式内存格式,可在现代硬件上进行高效的分析操作。它还提供了计算库和零拷贝流式消息传递和进程间通信。目前支持的语言包括 C 语言、C++、C#、Go、JavaScript、MATLAB、Python、R 语言、Ruby 和 Rust。


可用性和监督


Arrow 基于 Apache License v2.0 许可发行,由项目活跃贡献者自选团队进行监督。项目委员会(PMC)指导项目的日常运营工作,包括社区开发和产品发布。关于文件下载、文档信息和加入 Arrow 的方法,请参考以下链接:http://arrow.apache.org/


阅读英文原因:https://blogs.apache.org/foundation/entry/the-apache-software-foundation-announces46


2019-02-27 17:0112996
用户头像

发布了 199 篇内容, 共 81.4 次阅读, 收获喜欢 293 次。

关注

评论

发布
暂无评论
发现更多内容

易观分析获评2021年度北京市专精特新“小巨人”企业

易观分析

易观新闻 “小巨人”企业

十年所学,梦想终至,不负时光 | 《云端架构》新书首推发布,来自极度努力的吕校长

博文视点Broadview

大厂偏爱的Agent技术究竟是个啥

捉虫大师

架构 agent

学生管理系统架构设计文档

阿卷

架构实战营

ko在数栈中的应用

袋鼠云数栈

80%的软件环境管理问题,根因都在这里 | 研发效能提升36计

阿里云云效

阿里云 DevOps 云原生 持续交付 部署

大数据培训:Flink CDC 高频面试题

@零度

大数据 flink

凡泰极客成为W3C成员并加入MiniApps工作组,将积极参与小程序快应用技术标准化进程

FinClip

小程序

张海宁:首个 CNCF 中国开源项目 Harbor 的修炼之道

腾源会

开源 腾源会

腾讯云联合信通院发布《超低延时直播白皮书》,推动直播延时降低90%以上

科技热闻

ModStart:拥抱新技术,率先支持 Laravel 9.0

ModStart开源

直播系统聊天技术(七):直播间海量聊天消息的架构设计难点实践

JackJiang

网络编程 即时通讯 IM 直播技术 音视频技术

VIPKID基于Karmada的容器PaaS平台落地实践

华为云原生团队

开源 Kubernetes k8s多集群管理 混合云 分布式云

开源| 直播推拉流2.0升级了什么

anyRTC开发者

开源 音视频 屏幕共享 视频直播 美颜滤镜

java培训:JVM垃圾回收

@零度

JVM JAVA开发

《数字经济全景白皮书》数字人民币篇 重磅发布

易观分析

数字经济 数字人民币

如何打造一个能自动回复的钉钉机器人

老表

Python 机器人 Linxu 跟老表学云服务器

CSS实现阮大佬博文的阅读进度功能

战场小包

CSS css3 前端 2月月更

Nebula Graph 源码解读系列|客户端的通信秘密——fbthrift

NebulaGraph

数据库 图数据库

[Python]第一章(建议收藏)

謓泽

Python 2月月更

OpenHarmony移植案例与原理:如何适配服务启动引导部件bootstrap_lite

华为云开发者联盟

OpenHarmony 移植 bootstrap_lite startup 系统服务

C++异常处理机制

正向成长

c++ 异常处理

Netty如何高效接收网络数据?一文聊透ByteBuffer动态自适应扩缩容机制

bin的技术小屋

网络编程 Netty nio 中间件 Java【

本着什么原则,才能写出优秀的代码?

AlwaysBeta

程序员 设计模式 代码规范

上海市宝山区委书记陈杰一行参访旺链科技

旺链科技

区块链 产业区块链 Vone新闻

netty系列之:EventLoop,EventLoopGroup和netty的默认实现

程序那些事

Java Netty nio 程序那些事 2月月更

前端培训:Vue3计算属性比普通函数好的原因

@零度

Vue 前端开发

阳振坤:从电动汽车看分布式数据库的发展和崛起

OceanBase 数据库

数据库 OceanBase 开源 OceanBase 社区版 HTAP

OBCE 认证第一人莅临直播间|助你快速拿下 OBCA & OBCP 证书

OceanBase 数据库

直播 OceanBase 社区版 OBCE

一文了解如何源码编译Rainbond基础组件

北京好雨科技有限公司

Kubernetes PaaS rainbond

2022年2月国产数据库排行榜:冠军宝座面临挑战,OceanBase 重返 TOP3

墨天轮

数据库 tdengine TiDB 国产数据库

顶级项目Apache Arrow被业界大量采用,Apache软件基金会骄傲总结其发展潜力_大数据_Apache软件基金会_InfoQ精选文章