写点什么

网易湖仓管理系统 Amoro 进入 Apache 孵化器

  • 2024-03-27
    北京
  • 本文字数:1267 字

    阅读完需:约 4 分钟

大小:626.53K时长:03:33
网易湖仓管理系统 Amoro 进入 Apache 孵化器

北京时间 2024 年 3 月 11 日,Amoro 项目顺利通过投票,正式进入 Apache 软件基金会(ASF,Apache Software Foundation)的孵化器,成为 ASF 的一个孵化项目。

 

根据 Apache 软件基金会的投票结果邮件显示,本次投票共包含 15 个约束性投票和 19 个非约束性投票,所有的投票均为赞成,没有弃权票或反对票。

Amoro,开箱即用的湖仓管理能力

 

长期以来,在 Hadoop、Spark、Flink、Trino 等开源、开放、扩展性强的生态项目的支持下,湖仓已成为企业数字化转型中的重要选型。然而,湖仓的复杂性和技术门槛导致企业落地成本居高不下。

 

Amoro 是建立在开放数据湖表格式之上的湖仓管理系统。2020 年开始, 网易大数据团队在公司内基于 Apache Iceberg 进行湖仓一体架构的探索,孵化了流式湖仓服务 Arctic。

  

2021 年,团队陆续发布 Arctic 0.1/0.2 版本,并在网易云音乐算法团队落地,后在网易传媒、网易有道等业务落地。次年 8 月,网易正式开源了 Arctic,项目受到了广泛关注并开始上线到生产环境中,用户逐渐转变为贡献者。

  

2023 年 8 月,由于对 Arctic 的期望以及项目长期发展考虑,Arctic 正式更名为 Amoro,并发布了新的 LOGO 和官网。今年 3 月,网易将 Amoro 捐赠给 Apache 基金会,提案通过了 Apache 基金会的投票决议。

 

自 2022 年 8 月对外开源以来,Amoro 不断有发现相同痛点的小伙伴加入到社区中,截至目前,Amoro 共有 19 个上线用户和 62 位贡献者。

 

Amoro 旨在提供开箱即用的湖仓管理能力,将湖仓的复杂性留给系统,简化给产品和用户。据介绍,Amoro 的功能主要包括:

 

  • 提供统一的 Catalog 服务,对齐 Hive Metastore、Rest catalog 等开源标准,支持集成 Glue 等商业元仓,帮助引擎和产品构建流批统一的元仓;

  • 提供全托管的湖仓维护功能,包括数据自优化、数据过期、快照清理、元数据同步等,以实现数据在不同引擎之间的高可用性和开箱即用。

  • 支持对接不同的数据湖格式,包括 Apache Iceberg 和 Apache Paimon,以及一种对流批一体场景更加优化的 Mixed 格式。

  • 提供开箱即用的管理工具,包括 DSL 指令、Metrics、Dashboard 等。

 

“让湖仓不再成为互联网企业专宠”

 

根据 Amoro 团队介绍,Amoro 的愿景是依托于 Apache Iceberg、Apache Paimon 等新型数据湖表格式,持续打磨湖仓管理系统的定位和开箱即用的功能,为大数据产品和用户带来以下价值:

 

  1. 降低湖仓应用门槛,融入现代数据栈,为围绕湖仓构建的大数据产品极致瘦身,让湖仓不再成为互联网企业的专宠。

  2. 通过管理系统对维护任务的全托管能力,实现数据湖的自治,让数据治理变得简单和开箱即用。提供全托管维护任务的扩展能力,让湖仓管理变得更为便捷。

  

未来,Amoro 社区将专注于以下方面:

 

  1. 打磨全托管 Function 的框架和能力,持续优化 Built-in Function 功能,突出数据自优化功能与对标方案上的性能和成本优势。

  2. 以社区驱动的方式持续完善 Paimon、Iceberg 的对接能力,按需求对接新的 Format。

  3. 面向管理的各类 DSL 指令实现,帮助产品更好地集成。

  4. 完善 Metrics 以及其他管理功能。

 

相关链接:

Amoro 贡献者列表:

https://github.com/NetEase/amoro/graphs/contributors 

Amoro 2024 roadmap:

https://github.com/NetEase/amoro/issues/2534

2024-03-27 14:377589

评论

发布
暂无评论
发现更多内容

ARTS 打卡第11周

steve_lee

你应该知道的数仓安全

华为云开发者联盟

数据加密 数仓安全 透明加密 SQL函数加密

击破行业痛点,区块链赋能智慧物流高速发展

旺链科技

区块链 智慧物流

让宝妈宝爸告别安全顾虑,区块链构建母婴行业新生态

旺链科技

区块链 母婴

政治局会议再提工业互联网产业数字化|区块链如何协同发力?

旺链科技

区块链 工业互联网

【LeetCode】山脉数组的峰顶索引Java题解

Albert

算法 LeetCode 6月日更

什么是Python中的套接字编程?

华为云开发者联盟

Python 编程 socket 网络 套接字

敏捷绩效管理三剑客:OKR 、KPI、CFR

CODING DevOps

DevOps OKR 敏捷绩效 绩效管理

Flink Metric

Alex🐒

flink 翻译 flink1.13

[译] Android 的 Java 9,10,11,12 的支持

Antway

6月日更

实时音视频开发理论必备:如何省流量?视频高度压缩背后的预测技术

JackJiang

音视频 即时通讯 IM 视频编解码

更好链接资金需求 | 区块链如何赋能“链”金融

旺链科技

金融

缓存的世界Redis(一)

卢卡多多

redis 缓存 6月日更

文档代码同源

不脱发的程序猿

开发规范 文档代码同源

区块链 | 让付费的知识真正“物超所值”

旺链科技

区块链 知识付费

网络安全逐渐成为程序员的必备技能

学神来啦

Linux 程序员 安全 渗透

详解Vue八大生命周期钩子函数

华为云开发者联盟

Vue 对象 函数 Vue实例 八大生命周期

Python——元组的使用

在即

6月日更

全新升级IoT Stack 2.0和度能2.0,百度持续加码为产业智能化安全护航

百度大脑

百度智能云

ONES CTO 冯斌 | 大型软件研发团队如何实践高效项目管理?

万事ONES

团队管理 ONES Project 研发团队

ONES CTO 冯斌 | 升级项目管理体系,加速金融行业数字化转型

万事ONES

项目管理 研发管理 数字经济 ONES

推荐学Java——应该了解的前端内容

逆锋起笔

Java 大前端 后端 JAVA开发

【融云视角】沉浸式音频与通讯技术未来趋势

融云 RongCloud

【译】JavaScript 代码整洁之道-概述篇

KooFE

JavaScript 大前端 6月日更 整洁代码

并发王者课-黄金3:雨露均沾-不要让你的线程在竞争中被“饿死”

MetaThoughts

Java 多线程 并发 并发王者课

互联网就业系列文(一)

HZFEStudio

互联网 就业

重启心智解锁,重新获得一份能力精进指南,面对不确定性的未来,我们可以和世界的变化做好友。

叶小鍵

Go 语言学习路线来啦

roseduan

学习 Go 语言

EMQ映云科技边缘计算里程碑—Kuiper加入LF Edge基金会

EMQ映云科技

开源 云端 边缘流式数据 emq LF Edge

100个开箱即用的shell脚本,CV大法好,工作不费脑!

北游学Java

Java Shell

网易湖仓管理系统 Amoro 进入 Apache 孵化器_大数据_褚杏娟_InfoQ精选文章