50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

网易湖仓管理系统 Amoro 进入 Apache 孵化器

  • 2024-03-27
    北京
  • 本文字数:1267 字

    阅读完需:约 4 分钟

大小:626.53K时长:03:33
网易湖仓管理系统 Amoro 进入 Apache 孵化器

北京时间 2024 年 3 月 11 日,Amoro 项目顺利通过投票,正式进入 Apache 软件基金会(ASF,Apache Software Foundation)的孵化器,成为 ASF 的一个孵化项目。

 

根据 Apache 软件基金会的投票结果邮件显示,本次投票共包含 15 个约束性投票和 19 个非约束性投票,所有的投票均为赞成,没有弃权票或反对票。

Amoro,开箱即用的湖仓管理能力

 

长期以来,在 Hadoop、Spark、Flink、Trino 等开源、开放、扩展性强的生态项目的支持下,湖仓已成为企业数字化转型中的重要选型。然而,湖仓的复杂性和技术门槛导致企业落地成本居高不下。

 

Amoro 是建立在开放数据湖表格式之上的湖仓管理系统。2020 年开始, 网易大数据团队在公司内基于 Apache Iceberg 进行湖仓一体架构的探索,孵化了流式湖仓服务 Arctic。

  

2021 年,团队陆续发布 Arctic 0.1/0.2 版本,并在网易云音乐算法团队落地,后在网易传媒、网易有道等业务落地。次年 8 月,网易正式开源了 Arctic,项目受到了广泛关注并开始上线到生产环境中,用户逐渐转变为贡献者。

  

2023 年 8 月,由于对 Arctic 的期望以及项目长期发展考虑,Arctic 正式更名为 Amoro,并发布了新的 LOGO 和官网。今年 3 月,网易将 Amoro 捐赠给 Apache 基金会,提案通过了 Apache 基金会的投票决议。

 

自 2022 年 8 月对外开源以来,Amoro 不断有发现相同痛点的小伙伴加入到社区中,截至目前,Amoro 共有 19 个上线用户和 62 位贡献者。

 

Amoro 旨在提供开箱即用的湖仓管理能力,将湖仓的复杂性留给系统,简化给产品和用户。据介绍,Amoro 的功能主要包括:

 

  • 提供统一的 Catalog 服务,对齐 Hive Metastore、Rest catalog 等开源标准,支持集成 Glue 等商业元仓,帮助引擎和产品构建流批统一的元仓;

  • 提供全托管的湖仓维护功能,包括数据自优化、数据过期、快照清理、元数据同步等,以实现数据在不同引擎之间的高可用性和开箱即用。

  • 支持对接不同的数据湖格式,包括 Apache Iceberg 和 Apache Paimon,以及一种对流批一体场景更加优化的 Mixed 格式。

  • 提供开箱即用的管理工具,包括 DSL 指令、Metrics、Dashboard 等。

 

“让湖仓不再成为互联网企业专宠”

 

根据 Amoro 团队介绍,Amoro 的愿景是依托于 Apache Iceberg、Apache Paimon 等新型数据湖表格式,持续打磨湖仓管理系统的定位和开箱即用的功能,为大数据产品和用户带来以下价值:

 

  1. 降低湖仓应用门槛,融入现代数据栈,为围绕湖仓构建的大数据产品极致瘦身,让湖仓不再成为互联网企业的专宠。

  2. 通过管理系统对维护任务的全托管能力,实现数据湖的自治,让数据治理变得简单和开箱即用。提供全托管维护任务的扩展能力,让湖仓管理变得更为便捷。

  

未来,Amoro 社区将专注于以下方面:

 

  1. 打磨全托管 Function 的框架和能力,持续优化 Built-in Function 功能,突出数据自优化功能与对标方案上的性能和成本优势。

  2. 以社区驱动的方式持续完善 Paimon、Iceberg 的对接能力,按需求对接新的 Format。

  3. 面向管理的各类 DSL 指令实现,帮助产品更好地集成。

  4. 完善 Metrics 以及其他管理功能。

 

相关链接:

Amoro 贡献者列表:

https://github.com/NetEase/amoro/graphs/contributors 

Amoro 2024 roadmap:

https://github.com/NetEase/amoro/issues/2534

2024-03-27 14:377438

评论

发布
暂无评论
发现更多内容

sockfwd 一个数据转发的小工具

Robert Lu

Go 语言

如何关闭maven-default-http-blocker?

Robert Lu

Java maven

一文带你了解HTTP

喀拉峻

网络

Maven依赖调解源码解析(二):如何调试Maven源码和插件源码

xiaoxi666

maven 源码解析

Maven 依赖调解源码解析(三):传递依赖,路径最近者优先

xiaoxi666

maven 源码解析

Vue进阶(贰零贰):集合 Set 和 Map

No Silver Bullet

Vue 集合 11月日更

Maven 依赖调解源码解析(一):开篇

xiaoxi666

maven 源码解析

看动画学算法之:hashtable

程序那些事

Java 数据结构 算法 程序那些事 11月日更

在线等差数列求和计算器

入门小站

工具

模块四课后作业-设计千万级学生管理系统的考试试卷存储方案

断水风春

架构实战营

【系列文章】Maven 源码解析:依赖调解是如何实现的?

xiaoxi666

maven 源码解析

记录一次错误使用 yum 命令的尴尬

liuzhen007

11月日更

k8s endpoints controller源码分析

良凯尔

Kubernetes 源码分析 Kubernetes源码 #Kubernetes#

低调的采集,低调的学习,用自然资源部信息中心网站,来练习Python爬虫

梦想橡皮擦

11月日更

Prometheus Exporter (五)BlackBox Exporter

耳东@Erdong

Prometheus exporter blackbox exporter 11月日更

架构实战营-模块四作业

随风King

「架构实战营」

Fabric.js 画布基础功能

德育处主任

JavaScript 大前端 canvas 画布 FabricJS

将 Java 应用部署到 SAP 云平台 neo 环境的两种方式

汪子熙

Cloud SAP CloudFoundry 11月日更

SAP数据中心概述

汪子熙

数据中心 Cloud SAP 11月日更

redis sentinel 设计考试试卷

云里雾花

redis sentinel

马拉车算法解最长回文子串!Manacher

老表

Python LeetCode 11月日更 算法与数据结构

Maven 依赖调解源码解析(四):传递依赖,第一声明者优先

xiaoxi666

maven 源码解析

最强最全面的数仓建设规范指南(一)

五分钟学大数据

11月日更

Maven 依赖调解源码解析(五):同一个文件内声明,后者覆盖前者

xiaoxi666

maven 源码解析

搞定大厂算法面试之leetcode精讲2.时间空间复杂度

全栈潇晨

LeetCode 算法面试 算法刷题

Maven 依赖调解源码解析(七):总结

xiaoxi666

maven 源码解析

架构营模块四作业

GTiger

架构实战营

HiveSQL优化方法

大数据技术指南

11月日更

模块四-考试试卷存储方案

小何

「架构实战营」

Android C++系列:Linux进程(一)

轻口味

c++ android jni 11月日更

【Flutter 专题】02 图解 Mac 环境下安装配置环境

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 11月日更

网易湖仓管理系统 Amoro 进入 Apache 孵化器_大数据_褚杏娟_InfoQ精选文章