写点什么

网易数帆宣布流式湖仓服务 Arctic 开源,内部性能测试超过 Iceberg

  • 2022-08-15
    北京
  • 本文字数:1456 字

    阅读完需:约 5 分钟

网易数帆宣布流式湖仓服务Arctic开源,内部性能测试超过Iceberg

8 月 10 日,网易数帆正式对外宣布流式湖仓服务 Arctic 开源。Arctic 是在 Iceberg 和 Hive 之上添加了更多实时场景的能力,并且面向 DataOps 提供流批统一,开箱即用的元数据服务。

    

Arctic 百分之百兼容 lceberg 和 Hive 的表格式语法,支持 Spark 和 Flink 读写数据,支持 Trino 和 Impala 查询数据,目前 Impala 主要用到 Hive 的兼容特性,可以把 Arctic 表作为一个 Hive 做查询,从而支持 Impala。

 

网易数帆大数据实时计算技术专家、湖仓一体项目负责人马进表示,通过与业务沟通,企业希望整个数据中台层能够用一套规范的流程,实现数据业务的全场景覆盖。马进表示,Arctic 的定位就是流式湖仓服务,其中流式强调向实时能力的拓展,服务则强调管理、标准化度量,以及其他可以抽象到基础软件中的湖仓一体能力。

 

根据介绍,Arctic 有 AMS、optimizer 和 dashboard 三个组件,其中 AMS 和 optimizer 是核心。


 AMS 是 Arctic 中所谓流式湖仓服务中,服务这一层重点强调的组件,是面向 catalog、table、db 三元组的元数据中心,提供事务和冲突解决的 API,还可以与 HMS 同步数据。Optimizer 本质上是平台调度任务的组件,Arctic 有一整套完整的扩展机制和管理机制,用户可以通过 container 接口扩展调度框架,Optimizer  group 可以在 container 内部做资源隔离。Dashboard 是单独配置的管理界面。


性能方面,马进分享了一组网易数帆内部的测试结果。研发团队先用 TPC-C 跑数据库,再跑一个 Flink CDC 任务,然后把数据库实施流式同步到 Arctic 数据湖中,用 Arctic 数据湖构建一个分钟级别数据新鲜度的流式湖仓,在此基础上再跑 CHbenchmark 中的 TPC-H 部分,这样得到流式湖仓的性能数据。马进表示,整个测试流程和相关配置将在后续公开。

 

团队对测试时间进行了分组,分成 0-30 分钟、30-60 分钟、60-90 分钟和 90-120 分钟四组,结果显示,在有了持续 Optimizer 性能后,Arctic 性能基本上稳定在 20 秒左右。具体结果见下图:



另外,团队对比了原生的 Iceberg upsert 方案,测试结果显示 Iceberg 在 0-30 分钟是 30 秒左右,到了 30-60 分钟时性能急剧下降。经过分析,团队认为导致 Iceberg 性能急剧下降的原因是 Iceberg 本身没有 insert 数据和 delete 数据的精细化数据映射,由于每一个 insert file 都与 delete file 有非常多的关联,所以当团队持续写入流式文件时,导致在 Trino 中做 merge-on-read 性能急剧下降,后面 60-90 分钟、90-120 分钟时直接无法测试。

 

团队还对比了 Hudi,结果显示,Arctic 和 Hudi 一样,通过后台能够保证数据分析的性能,维持在一个比较平稳的数字。

 

在服务方面,Arctic 主要强调管理上的功能:支持将数据湖和消息队列封装成统一的表,实现流批表的统一;提供流式湖仓标准化度量,如 dashboard 和相关管理工具;解决并发写入冲突,实现事务一致性语义。

 

不过,马进也表示 Arctic 在管理层面还有很长的路要走,比如表的实时性如何量化,怎样在时效性、成本、性能之间给用户提供 trade off 方案,数据优化的资源该怎样量化等都有待解决。

 

在去年,网易决心以一种更加专注的方式做开源。Arctic 便是此思想下的一个开源项目。“一个好的开源项目应该是比较纯粹的。”马进以 Iceberg 为例解释道,Iceberg 早期从 Netflix 内部需求孵化出来,然后开源给更多企业使用,没有哪个功能是内部使用而不对外开放的,或者跟自家的某些东西做深度绑定,这更符合开源气质。

 

“未来,Arctic 也将秉承这一理念,不会做任何商业隐藏。我们团队推进开源也是非常独立的过程,商业化可能会由其他的团队推进。”马进说道。

 

Arctic 文档地址:https://arctic.netease.com/ch/

GitHub 地址:https://github.com/NetEase/arctic

 

2022-08-15 14:234758

评论

发布
暂无评论
发现更多内容

软件开发提效工具——低代码(Low-Code)

互联网工科生

低代码 数字化

.NET开源全面方便的第三方登录组件集合 - MrHuo.OAuth

快乐非自愿限量之名

.net 开发 第三方登录

开发体育直播平台的商业创新:多元化收入模式引领行业转型

软件开发-梦幻运营部

Linux 爱好者线下沙龙:成都场圆满结束 & 下一场西子湖畔相见 | LLUG·第五站

OpenAnolis小助手

操作系统 杭州 龙蜥社区 LLUG Linux中国

使用CURL获取速卖通详情的API接口

Noah

AnyGo for Mac(在iPhone / iPad上轻松模拟GPS位置)v6.8.1激活版

影影绰绰一往直前

ACDSee Photo Studio 10 for Mac(专业的图像处理软件)v10.0.0激活版

影影绰绰一往直前

【AI编程助手】Devchat解析:深入了解、快速配置与实际应用

快乐非自愿限量之名

人工智能 DevChat AI编程

ClickHouse联合创始人、前Google副总裁Yury到访杭州玖章算术公司,双方建立生态合作

NineData

Clickhouse 数据复制 合作伙伴 SQL开发 NineData

SecureFX for Mac(ftp文件传输工具)附注册码 v9.4.2永久激活版

mac

苹果mac Windows软件 SecureFX 文件传输客户端

item_get_pro-获得淘宝商品详情高级版api接口

技术冰糖葫芦

API 文档

Java中tranisent关键字到底是干嘛用的?

郑在暴富中

Java 关键字 transient

MATIC WORLD智能合约DAPP质押项目系统开发

l8l259l3365

李开复再度回应争议;10 月中国游戏厂商及应用出海收入 30 强出炉丨 RTE 开发者日报 Vol.86

声网

2023如何搭建优质独享美国IP?美国静态住宅代理IP哪里有?

Geek_bf375d

Adobe Camera Raw for Mac(Raw格式图像ps插件) v16.0.0中文激活版

影影绰绰一往直前

解锁编程潜能:探索亚马逊CodeWhisperer,打造编程世界的声音引导者

熬夜磕代码、

亚马逊云科技

iTubeGo YouTube Downloader for Mac(YouTube 下载器)v7.2.0激活版

影影绰绰一往直前

物联专栏丨物联网技术的挑战与趋势

inBuilder低代码平台

物联网

Databend 源码阅读: Storage 概况和 Read Partitions

Databend

为什么现在的低代码平台大多被抵制?

代码生成器研究

编程 程序员 低代码 代码

为什么Facebook运营需使用IP代理?有哪些美国IP代理好用?

Geek_bf375d

AI机器学习实战:构建智能系统的关键步骤

不在线第一只蜗牛

人工智能 机器学习 AI

SaaS与PaaS平台的区别

树上有只程序猿

低代码 PaaS SaaS

Acrobat Pro DC 2023 for mac(专业PDF编辑软件)v2023.006.20320中文激活版

mac

Acrobat Pro DC 2023 苹果mac Windows软件 PDF编辑和管理软件

后端除了增删改查还有什么?

秃头小帅oi

好用且强大——JNPF永远的神

高端章鱼哥

软件开发 低代码

流程图是什么?一文弄懂流程图 - 定义 | 流程图符号 | 流程图如何制作

彭宏豪95

流程图 在线白板 画图工具 效率软件 流程图绘制

一些有趣的迹象:“前端已死”难道要成真了?

伤感汤姆布利柏

程序员 Vue 前端

学习Python过程中容易遇到的问题及其解决办法

Geek_7d9e0b

#python

情感语音识别技术的挑战与未来发展

来自四九城儿

网易数帆宣布流式湖仓服务Arctic开源,内部性能测试超过Iceberg_语言 & 开发_褚杏娟_InfoQ精选文章