
最近,Cloudflare 宣布了Cloudflare数据平台的公开测试版。这是一个托管解决方案,使用开放标准(如 Apache Iceberg)摄取、存储和查询分析数据表。
今年早些时候,Cloudflare 宣布了 R2 Data Catalog 的公开测试版,这是一个基于 R2 对象存储构建的托管 Apache Iceberg 目录。最近,公司将 Cloudflare Pipelines、R2 Data Catalog 和 R2 SQL 整合成了 Cloudflare 数据平台。Cloudflare 首席工程师Micah Wylde、高级系统工程师Alex Graham和软件工程师Jérôme Schneider解释说:
对现代公司而言,分析型数据至关重要。它使你能够了解用户行为、公司绩效,并在出现问题时提醒你。但传统数据基础设施昂贵且难以运维,需要固定的云基础设施和内部专业人才。我们构建 Cloudflare 数据平台就是为了使这项工作足够简单,任何人都可以使用,并且基于使用定价,人们负担得起。
图片来源:Cloudflare 博客
Cloudflare Pipelines收集通过 Workers 或 HTTP 发送的事件,使用 SQL 处理它们,并将它们存储在 Iceberg 表或 R2 上的文件中。R2 Data Catalog跟踪 Iceberg 元数据,现在还处理常规维护任务(如压缩),加快查询速度。R2 SQL是一个分布式无服务器查询引擎,用于 R2 中的 PB 级数据集。Micah Wylde(Arroyo 前联合创始人兼首席执行官)在LinkedIn上补充说:
六个月前,Arroyo 被 Cloudflare 收购。这在当时引起了一些混乱——Cloudflare 想要一个流处理引擎做什么?答案是:我们正在构建一个数据平台。Cloudflare 开发平台已经使数百万开发者能够通过其提供的纯无服务器基础设施来构建、运营和扩展他们的应用程序。Cloudflare 数据平台采用了相同的方法,旨在提供一个任何人都可以使用的分析型数据基础设施。
虽然对于模式化和规范化数据或在存储前删除敏感信息等用例,SQL 转换非常强大,但 Pipelines 目前仅支持无状态转换。将来,Cloudflare 计划进一步利用 Arroyo 的状态处理能力,以支持聚合、增量更新物化视图和连接。CDS UK 解决方案架构师 Jamie Lord着重指出了新平台的一个主要优势,即标准 Cloudflare 数据访问“无出站费”:
零出站费从根本上改变了数据仓库的经济性。Cloudflare 利用新数据平台的这一优势对亚马逊云科技和谷歌在分析型工作负载领域的主导地位发起了挑战。该平台直指一个简单的事实:企业在数据传输上花费了大量的资金。对于 PB 级操作,每年仅在区域间移动数据进行分析可能就要花费数百万美元。Cloudflare 完全消除了这项成本。
McGaw.io 工程总监 Joel Hatmaker评论道:
如果你已经因为性能和安全特性而使用 Cloudflare,那么 Cloudflare 数据平台看起来已经非常有吸引力。
Cloudflare 声称,与 Logpush 集成、通过 Workers 实现用户定义函数以及 R2 SQL 中的聚合和连接功能都将在 2026 年上半年陆续推出。
Cloudflare 提供了一个教程,说明如何使用 Pipelines、R2 Data Catalog 和 R2 SQL 创建端到端分析型数据系统。在公开测试期间,Pipelines、R2 Data Catalog 和 R2 SQL 均不收费,但查询产生的存储和操作费用会按标准费率收费。
声明:本文为 InfoQ 翻译,未经许可禁止转载。
原文链接:https://www.infoq.com/news/2025/11/cloudflare-data-platform/








评论