写点什么

小米数据湖架构演进:Iceberg、Paimon 与 AI 场景下的实践|QCon 北京

  • 2025-04-07
    北京
  • 本文字数:1061 字

    阅读完需:约 3 分钟

大小:555.44K时长:03:09
小米数据湖架构演进:Iceberg、Paimon 与 AI 场景下的实践|QCon 北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下一步的技术决策提供方向。


小米数据负责人李培殿已确认出席并发表题为《小米数据湖架构演进:Iceberg、Paimon 与 AI 场景下的实践》的主题分享。本次演讲主要小米数据湖架构 Iceberg 及 Paimon 演进的历程,并介绍小米使用 Apache Gravitino 统一元数据,以及使用 Fileset 进行非表格数据管理和使用上的经验。同时将分享在实际业务中如何有效的使用 Iceberg、Paimon 和 Fileset 来实现的数据在 Data 和 AI 场景的快速流转。


李培殿是小米数据负责人,在小米参与流式计算 Flink,数据湖 Iceberg,Paimon,元数据湖 Gravitino 等开发工作,同时负责小米大模型数据预处理相关工作。他在本次会议的详细演讲内容如下:


演讲提纲

1. 小米数据湖架构

  • 介绍小米当前数据湖架构

  • 介绍当前小米数据湖的使用情况

2. 从 Iceberg 到 Paimon

  • 介绍 Iceberg 使用的问题,为什么引入 Paimon

3. AI 场景下非表格数据的管理和使用

  • 介绍使用 Fileset 来管理非表格数据的应用实践

4. 统一元数据

  • 为什么要做统一元数据

  • 介绍使用 Gravitino 来统一元数据的落地实践

5. 实际业务案例

  • 以大模型数据预处理业务为例,介绍如何使用数据湖高效的完成 Data 到 AI 的数据流转

6. 未来规划

  • 统一的云原生湖仓架构

  • 统一元数据


您认为,这样的技术在实践过程中有哪些痛点?

  • 如何高效的实现 Data 到 AI 场景的数据流转

  • 表和文件如何选择,AI 场景下是否可以使用数据湖


演讲亮点

  • Iceberg、Paimon 在小米最新的落地实践

  • 介绍非表格和元数据在小米的实践及业务价值


听众收益

  • 了解统一元数据在小米的实践案例

  • AI 场景下实际的业务价值


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情信息可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-04-07 10:007063

评论

发布
暂无评论

GitHub 无法访问?IoTDB 开源代码有保障!

Apache IoTDB

用DevEco Studio增量补丁修复功能,让鸿蒙应用的调试效率大增

HarmonyOS开发者

Go语言使用通义灵码辅助开发 - AI编程助手提升效率

阿里云云效

Go

使用gone v2 的Provider 机制升级改造 goner/xorm 的过程记录

大鹏

代码重构 依赖注入 goner/xorm gone框架 主从数据库集群

CAD光标找不到了是怎么回事?快试试这两种方法

在路上

cad

在 Excel 中使用通义灵码辅助开发 VBA 程序

阿里巴巴云原生

如何使用通义灵码辅助开发鸿蒙OS - AI编程助手提升效率

阿里巴巴云原生

鸿蒙 OS

企业级防护指南:淘宝API调用如何安全加固?反爬虫对抗实战方案(附代码)

代码忍者

淘宝API接口

Node.js AI 通义灵码 VSCode 插件安装与功能详解

阿里巴巴云原生

node,js

Node.js AI 通义灵码 VSCode 插件安装与功能详解

阿里云云效

node.js

AI时代测试开发者的核心技术体系

测试人

人工智能

“可升级的汽车”:从特斯拉到鸿蒙智行的进化史

脑洞汽车

AI

走进佛山传媒,共探AI时代业财融合新实践

用友智能财务

财务 会计

芯盾时代PAM解决方案

芯盾时代

特权账号管理

淘宝天猫商品详情数据抓取实战:手把手教你调用item_get_app接口

代码忍者

淘宝API接口

如何使用通义灵码辅助开发鸿蒙OS - AI编程助手提升效率

阿里云云效

鸿蒙

从 Excel 到你的表格应用:数据验证功能的嵌入实践指南

电子尖叫食人鱼

数据 Excel 表格

如何使用通义灵码提高前端开发效率

阿里巴巴云原生

前端

坐标上海,20K的面试难度

王中阳Go

Go 面试

在 Excel 中使用通义灵码辅助开发 VBA 程序

阿里云云效

vba

人、机、料、法、环,最全知识点!

积木链小链

数字化 制造业 中小企业

如何使用通义灵码玩转Python - AI编程助手提升效率

阿里云云效

Python

NFT是和BTC同等重要的创新发明

PowerVerse

eth BTC NFT

人工智能产品测试全攻略:从理论到实战‌

测试人

人工智能

HPE Aruba Networking Central推出全新虚拟私有云及本地部署选项

科技热闻

面向MoE和推理模型时代:阿里云大数据AI产品升级发布

阿里云大数据AI技术

人工智能 大数据 阿里云 MoE MCP

2025电商人必备!超全实用数据采集API接口清单(商品/订单/物流全覆盖)

代码忍者

质变科技发布自主数据分析MCP Server

AI数据云Relyt

AI 数据分析 AI代理 MCP协议

如何使用通义灵码玩转Python - AI编程助手提升效率

阿里巴巴云原生

CAD看图王常见问题解析

在路上

cad

Go语言使用通义灵码辅助开发 - AI编程助手提升效率

阿里巴巴云原生

Go

小米数据湖架构演进:Iceberg、Paimon 与 AI 场景下的实践|QCon 北京_大数据_QCon全球软件开发大会_InfoQ精选文章