收录了 arrow 频道下的 50 篇内容
Apache Arrow提出了一种跨语言、跨平台、内存中的列式数据格式,设计目标是免去数据序列化的需要,并减少复制操作的开销。
这是一个新的通用客户端服务器框架,用于简化大型数据集通过网络接口的高性能传输。
本文将用三种方法来创建 CI/CD 流水线。Monad 不能对流水线进行静态分析,Arrow 语法很难用,我称之为 Dart(不知道它是否已经有名字了)的一种轻量级的 Arrow 方法可以像 Arrow 一样进行静态分析,但语法比 Monad 更简单。
让数据在异构大数据系统间移动、处理地更快
Apache Arrow是一种基于内存的列式数据结构,正向上面这张图的箭头,它的出现就是为了解决系统到系统之间的数据传输问题,2016年2月Arrow被提升为Apache的顶层项目。
在Arrow成为顶级项目时,我们预测世界上大多数数据将在未来10年中通过Arrow进行处理。仅仅过了3年,我们就看到Arrow在各种分析、机器学习和人工智能工作负载中出现了大量的业界采用,并实现了价值增长。
Apache Arrow项目的项目管理委员会(PMC)主席Julien Le Dem在Data Eng Conf NY上对面向列的数据处理的未来作了介绍。Apache Arrow是在内存中执行列式计算的开源标准。InfoQ采访了Le Dem,以了解Arrow和Parquet的区别。
在这篇文章中,Siddharth Teotia讨论了列式数据库的优点,并介绍了Apache Arrow的向量化处理解决方案,以及基于Arrow的Dremio数据库中查询的详细处理。
ECMAScript 6已经正式发布了,作为它最重要的方言,Javascript也即将迎来语法上的重大变革,InfoQ特开设“深入浅出ES6”专栏,来看一下ES6将给我们带来哪些新内容。本专栏文章来自Mozilla Web开发者博客,由作者授权翻译并发布。
截止到 2021年,Rust 连续五年成为 StackOverflow 语言榜上最受欢迎的语言。
易用高效,数据访问不再难!Arrow Flight SQL让CnosDB 2.0 十亿行数据查询秒级响应成为可能!
编程语言是推动时代齿轮的抓手。
我们通过一套高度优化的序列化基础原语,结合 JIT 动态编译和 Zero-Copy 等技术,同时满足了性能、功能和易用性的需求,实现了任意对象自动跨语言序列化,并提供极致的性能。
Apache Spark 3.0 增加了很多令人兴奋的新特性
本文论述了五种创新性的Kanban。
语言设计成功的奥秘何在? Unix的开发贡献者之一、Awk创始人Brian Kernighan,试图在诺丁汉大学的采访中揭开语言设计的神秘面纱。
PyFlink 核心功能介绍
Rust 开源生态发展
V6d特别适用于大型(分片)数据集(如大语言和图模型)上的深度网络训练。