写点什么

小米数据湖架构演进:Iceberg、Paimon 与 AI 场景下的实践|QCon 北京

  • 2025-04-07
    北京
  • 本文字数:1061 字

    阅读完需:约 3 分钟

大小:555.44K时长:03:09
小米数据湖架构演进:Iceberg、Paimon 与 AI 场景下的实践|QCon 北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下一步的技术决策提供方向。


小米数据负责人李培殿已确认出席并发表题为《小米数据湖架构演进:Iceberg、Paimon 与 AI 场景下的实践》的主题分享。本次演讲主要小米数据湖架构 Iceberg 及 Paimon 演进的历程,并介绍小米使用 Apache Gravitino 统一元数据,以及使用 Fileset 进行非表格数据管理和使用上的经验。同时将分享在实际业务中如何有效的使用 Iceberg、Paimon 和 Fileset 来实现的数据在 Data 和 AI 场景的快速流转。


李培殿是小米数据负责人,在小米参与流式计算 Flink,数据湖 Iceberg,Paimon,元数据湖 Gravitino 等开发工作,同时负责小米大模型数据预处理相关工作。他在本次会议的详细演讲内容如下:


演讲提纲

1. 小米数据湖架构

  • 介绍小米当前数据湖架构

  • 介绍当前小米数据湖的使用情况

2. 从 Iceberg 到 Paimon

  • 介绍 Iceberg 使用的问题,为什么引入 Paimon

3. AI 场景下非表格数据的管理和使用

  • 介绍使用 Fileset 来管理非表格数据的应用实践

4. 统一元数据

  • 为什么要做统一元数据

  • 介绍使用 Gravitino 来统一元数据的落地实践

5. 实际业务案例

  • 以大模型数据预处理业务为例,介绍如何使用数据湖高效的完成 Data 到 AI 的数据流转

6. 未来规划

  • 统一的云原生湖仓架构

  • 统一元数据


您认为,这样的技术在实践过程中有哪些痛点?

  • 如何高效的实现 Data 到 AI 场景的数据流转

  • 表和文件如何选择,AI 场景下是否可以使用数据湖


演讲亮点

  • Iceberg、Paimon 在小米最新的落地实践

  • 介绍非表格和元数据在小米的实践及业务价值


听众收益

  • 了解统一元数据在小米的实践案例

  • AI 场景下实际的业务价值


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情信息可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-04-07 10:006007

评论

发布
暂无评论

Flutter 图片库重磅开源!

阿里巴巴终端技术

flutter 开源 native 客户端

InfoQ 极客传媒 15 周年庆征文|一文读懂分布式系统本质:高吞吐、高可用、可扩展

No Silver Bullet

架构 分布式系统 可扩展 6月月更 InfoQ极客传媒15周年庆

这个API文档,太拽了吧!

Liam

前端 Postman API API文档 开放api

哈希游戏开发竞猜系统哈希值hash算法

薇電13242772558

哈希算法

龙蜥开发者说:不忘初心,方得始终 | 第 7 期

OpenAnolis小助手

开源 cpu 龙蜥开发者说 飞腾 不忘初心

直播回顾 | 7000字干货,深析区块链+汽车供应链金融的应用价值

旺链科技

区块链 产业区块链 供应链金融

华为云GaussDB首席架构师冯柯:摘取皇冠上的明珠,华为云数据库的创新与探索

华为云开发者联盟

数据库 华为云 GaussDB 国产数据库

应用流程挖掘,发现潜在RPA可实施的场景,助力银行优化业务流程

易观分析

RPA

王者荣耀商城异地多活架构设计

流火

OceanBase 成为信通院首批可信开源社区、可信开源项目

OceanBase 数据库

中国信通院 OceanBase 开源

博云容器云产品族:如何实现让“Any APP on Any Kubernetes”?

BoCloud博云

云原生 容器云

多模态语义检索 | 基于 MetaSpore 快速部署 HuggingFace 预训练模型

Geek_a02d1e

机器学习 深度学习 开源 AI 多模态

样品管理系统解决方案

低代码小观

Lims LIMS实验室信息管理系统 LIMS系统

动态路由协议之RIP协议,最古老的距离矢量协议!

wljslmz

IP 网络工程师 动态路由 6月月更 路由协议

都有哪些较好用的项目管理软件?

优秀

项目管理 项目管理软件

天猫精灵语音技能单轮对话表达式的参数定义

汪子熙

人工智能 机器学习 聊天机器人 机器人 6月月更

2022年中国新能源汽车换电市场发展洞察

易观分析

新能源汽车

架构实战营模块七 作业

库尔斯

架构实战营

移动平台打造新生态 | 助力企业跨业务、一站式、全场景的系统建设

BeeWorks

科创人·神州数码集团CIO沈旸:最佳实践模式正在失灵,开源加速分布式创新

科创人

Docker的安装及日常命令的使用

Geek_982ff5

6月月更

【高并发】在高并发环境下该如何构建应用级缓存?

冰河

并发编程 多线程 高并发 异步编程 6月月更

一篇文章带你彻底了解哈希表

武师叔

算法 哈希表 6月月更

撑算力之帆,天翼云助力数字时代逐潮者远航

天翼云开发者社区

AI“爷青回”:一键找回童年记忆

最新动态

Java 中三大类数据类型

迷篱

函数节流和函数防抖和他们的区别

工边页字

JavaScript 性能优化 前端 6月月更

【Spring 学习笔记(一)】第一个Spring程序与IoC思想

倔强的牛角

6月月更

当AI抄起了水表

华为云开发者联盟

人工智能 modelarts workflow 智能水务

架构实战营模块七作业

天琪实刚亮

【云服务器】云计算平台的架构是什么样的?

Finovy Cloud

云服务器 GPU服务器

小米数据湖架构演进:Iceberg、Paimon 与 AI 场景下的实践|QCon 北京_大数据_QCon全球软件开发大会_InfoQ精选文章