写点什么

网易湖仓管理系统 Amoro 进入 Apache 孵化器

  • 2024-03-27
    北京
  • 本文字数:1267 字

    阅读完需:约 4 分钟

大小:626.53K时长:03:33
网易湖仓管理系统 Amoro 进入 Apache 孵化器

北京时间 2024 年 3 月 11 日,Amoro 项目顺利通过投票,正式进入 Apache 软件基金会(ASF,Apache Software Foundation)的孵化器,成为 ASF 的一个孵化项目。

 

根据 Apache 软件基金会的投票结果邮件显示,本次投票共包含 15 个约束性投票和 19 个非约束性投票,所有的投票均为赞成,没有弃权票或反对票。

Amoro,开箱即用的湖仓管理能力

 

长期以来,在 Hadoop、Spark、Flink、Trino 等开源、开放、扩展性强的生态项目的支持下,湖仓已成为企业数字化转型中的重要选型。然而,湖仓的复杂性和技术门槛导致企业落地成本居高不下。

 

Amoro 是建立在开放数据湖表格式之上的湖仓管理系统。2020 年开始, 网易大数据团队在公司内基于 Apache Iceberg 进行湖仓一体架构的探索,孵化了流式湖仓服务 Arctic。

  

2021 年,团队陆续发布 Arctic 0.1/0.2 版本,并在网易云音乐算法团队落地,后在网易传媒、网易有道等业务落地。次年 8 月,网易正式开源了 Arctic,项目受到了广泛关注并开始上线到生产环境中,用户逐渐转变为贡献者。

  

2023 年 8 月,由于对 Arctic 的期望以及项目长期发展考虑,Arctic 正式更名为 Amoro,并发布了新的 LOGO 和官网。今年 3 月,网易将 Amoro 捐赠给 Apache 基金会,提案通过了 Apache 基金会的投票决议。

 

自 2022 年 8 月对外开源以来,Amoro 不断有发现相同痛点的小伙伴加入到社区中,截至目前,Amoro 共有 19 个上线用户和 62 位贡献者。

 

Amoro 旨在提供开箱即用的湖仓管理能力,将湖仓的复杂性留给系统,简化给产品和用户。据介绍,Amoro 的功能主要包括:

 

  • 提供统一的 Catalog 服务,对齐 Hive Metastore、Rest catalog 等开源标准,支持集成 Glue 等商业元仓,帮助引擎和产品构建流批统一的元仓;

  • 提供全托管的湖仓维护功能,包括数据自优化、数据过期、快照清理、元数据同步等,以实现数据在不同引擎之间的高可用性和开箱即用。

  • 支持对接不同的数据湖格式,包括 Apache Iceberg 和 Apache Paimon,以及一种对流批一体场景更加优化的 Mixed 格式。

  • 提供开箱即用的管理工具,包括 DSL 指令、Metrics、Dashboard 等。

 

“让湖仓不再成为互联网企业专宠”

 

根据 Amoro 团队介绍,Amoro 的愿景是依托于 Apache Iceberg、Apache Paimon 等新型数据湖表格式,持续打磨湖仓管理系统的定位和开箱即用的功能,为大数据产品和用户带来以下价值:

 

  1. 降低湖仓应用门槛,融入现代数据栈,为围绕湖仓构建的大数据产品极致瘦身,让湖仓不再成为互联网企业的专宠。

  2. 通过管理系统对维护任务的全托管能力,实现数据湖的自治,让数据治理变得简单和开箱即用。提供全托管维护任务的扩展能力,让湖仓管理变得更为便捷。

  

未来,Amoro 社区将专注于以下方面:

 

  1. 打磨全托管 Function 的框架和能力,持续优化 Built-in Function 功能,突出数据自优化功能与对标方案上的性能和成本优势。

  2. 以社区驱动的方式持续完善 Paimon、Iceberg 的对接能力,按需求对接新的 Format。

  3. 面向管理的各类 DSL 指令实现,帮助产品更好地集成。

  4. 完善 Metrics 以及其他管理功能。

 

相关链接:

Amoro 贡献者列表:

https://github.com/NetEase/amoro/graphs/contributors 

Amoro 2024 roadmap:

https://github.com/NetEase/amoro/issues/2534

2024-03-27 14:377657

评论

发布
暂无评论
发现更多内容

2024南京智博会:展示国内外前沿科技成果,推动智能产业快速发展

AIOTE智博会

南京智博会 大数据展 智慧城市展

腾讯云与钢研新材达成战略合作,加速金属材料产业链企业数字化升级

极客天地

【中国算力大会分会】2024算法、高性能计算与人工智能国际学术会议(AHPCAI 2024)

搞科研的小刘

人工智能 算法 学术会议 学术论文 EI

2024年API趋势,哪些API将增加市场份额?

幂简集成

API

浪潮信息-龙蜥技术认证上线,培训专场圆满召开

OpenAnolis小助手

开源 操作系统 龙蜥社区 浪潮信息 龙蜥人才培养计划

百度智能云参与信通院多项边缘计算标准编制,「大模型时代下云边端协同 AI 发展研讨会」成功召开

Baidu AICLOUD

边缘计算 大模型 边缘计算平台

担心巡检作假?草料五大防作假功能,可组合使用

草料二维码

设备巡检 设备管理 草料二维码 设备巡检系统 二维码巡检

高薪线下周末班马上开班,手把手带你提升职业技能

霍格沃兹测试开发学社

C# 程序集、模块和类型概念及关系

不在线第一只蜗牛

C# 开发语言 程序集

Meme币取代VC代币 让比特币越来越好

区块链软件开发推广运营

dapp开发 区块链开发 NFT开发 公链开发 代币开发

充分发挥财务敏捷性,扩大集成式财务规划的价值

智达方通

企业管理 财务转型

基于大语言模型的应用

悦数图数据库

大语言模型

基于龙蜥衍生版 KeyarchOS 的 LVM 卷管理技术与实践 | 干货推荐

OpenAnolis小助手

操作系统 技术干货 龙蜥社区 龙蜥操作系统 浪潮信息

浪潮信息-龙蜥技术认证上线,培训专场圆满召开

OpenAnolis小助手

操作系统 龙蜥社区 浪潮信息 龙蜥人才培养计划

暗水印——空域:二值化图像水印(看不见我吧 啦啦啦~)

京东科技开发者

信创数据库有哪些?哪家好?堡垒机支持吗?

行云管家

数据库 信创 堡垒机 国产化

Vite 的预构建原理与实践| 京东物流技术团队

京东科技开发者

龙蜥SIG月度动态:两大特性合入 Linux 主线,提供高速本地通信加速及丰富的设备信息

OpenAnolis小助手

操作系统 高性能网络 龙蜥社区 龙蜥技术sig

重构MQ处理架构:MVEL表达式和责任链设计模式应用实践

京东零售技术

后端 代码规范 代码整洁 企业号 5 月 PK 榜

GPT-4o 后 LLM 时代 RTC 需求讨论会丨社区伙伴活动分享

RTE开发者社区

CaffeineCache Api介绍以及与Guava Cache性能对比| 京东物流技术团队

京东科技开发者

和鲸“101 数智领航计划”成果展示:携手北中医共建健康医疗人工智能实验室

ModelWhale

人工智能 大数据 北中医

北方民族大学40周年校庆学术活动-第四届自动化控制、算法与智能仿生学术会议(ACAIB 2024)

搞科研的小刘

计算机 #人工智能 学术会议 学术论文 EI

网易湖仓管理系统 Amoro 进入 Apache 孵化器_大数据_褚杏娟_InfoQ精选文章