写点什么

小米数据湖架构演进:Iceberg、Paimon 与 AI 场景下的实践|QCon 北京

  • 2025-04-07
    北京
  • 本文字数:1061 字

    阅读完需:约 3 分钟

大小:555.44K时长:03:09
小米数据湖架构演进:Iceberg、Paimon 与 AI 场景下的实践|QCon 北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下一步的技术决策提供方向。


小米数据负责人李培殿已确认出席并发表题为《小米数据湖架构演进:Iceberg、Paimon 与 AI 场景下的实践》的主题分享。本次演讲主要小米数据湖架构 Iceberg 及 Paimon 演进的历程,并介绍小米使用 Apache Gravitino 统一元数据,以及使用 Fileset 进行非表格数据管理和使用上的经验。同时将分享在实际业务中如何有效的使用 Iceberg、Paimon 和 Fileset 来实现的数据在 Data 和 AI 场景的快速流转。


李培殿是小米数据负责人,在小米参与流式计算 Flink,数据湖 Iceberg,Paimon,元数据湖 Gravitino 等开发工作,同时负责小米大模型数据预处理相关工作。他在本次会议的详细演讲内容如下:


演讲提纲

1. 小米数据湖架构

  • 介绍小米当前数据湖架构

  • 介绍当前小米数据湖的使用情况

2. 从 Iceberg 到 Paimon

  • 介绍 Iceberg 使用的问题,为什么引入 Paimon

3. AI 场景下非表格数据的管理和使用

  • 介绍使用 Fileset 来管理非表格数据的应用实践

4. 统一元数据

  • 为什么要做统一元数据

  • 介绍使用 Gravitino 来统一元数据的落地实践

5. 实际业务案例

  • 以大模型数据预处理业务为例,介绍如何使用数据湖高效的完成 Data 到 AI 的数据流转

6. 未来规划

  • 统一的云原生湖仓架构

  • 统一元数据


您认为,这样的技术在实践过程中有哪些痛点?

  • 如何高效的实现 Data 到 AI 场景的数据流转

  • 表和文件如何选择,AI 场景下是否可以使用数据湖


演讲亮点

  • Iceberg、Paimon 在小米最新的落地实践

  • 介绍非表格和元数据在小米的实践及业务价值


听众收益

  • 了解统一元数据在小米的实践案例

  • AI 场景下实际的业务价值


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情信息可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-04-07 10:007142

评论

发布
暂无评论

请查收| 京东零售技术AI领域前沿探索-10篇顶会论文合集

京东零售技术

Databend x 沉浸式翻译 | 基于 Databend Cloud 构建高效低成本的业务数据分析体系

Databend

国内做TikTok直播带货需要解决什么问题?

Ogcloud

TikTok 直播专线 tiktok直播 tiktok直播专线 tiktok矩阵

Infosys稳居全球IT服务品牌前三名,继续领跑行业

财见

让万物「听说」:AI 对话式智能硬件方案和发展洞察

声网

域名解析错误有哪些解决方法?

国科云

什么是 Python 解释器?

克莱因瓶

Python Python解释器

2025春招,Spring 面试题汇总

威哥爱编程

spring spring 面试题

人工智能在音频、视觉、多模态领域的应用

测试人

人工智能 软件测试

一年做一次,一次做半年,《DevData 2025研发效能基准报告》再度起航!

思码逸研发效能

研发效能 研发效能度量 研发效能管理 思码逸

Kmesh v1.0正式发布!7大特性提升网络流量管理效率和安全性

华为云开发者联盟

云原生 华为云 服务网格 Kmesh

火语言RPA--图鉴打码

火语言RPA

对象池框架 commons pool2 原理与实践

不在线第一只蜗牛

开发语言 对象池

5 个适合小型企业使用的管理软件!(真实经验)

NocoBase

开源 低代码 企业管理 管理工具 无代码

TimechoDB v1.3.4 发布 | 新增模式匹配函数、数据导入导出脚本合并等功能

Apache IoTDB

低代码教你克服数字化应用挑战的策略

秃头小帅oi

WebAssembly视频检测在社区创作平台的落地与实践 | 得物技术

得物技术

算法 前端

2025年深圳国际新能源电池及电池材料展会

秋硕展览

人工智能丨视觉识别在自动化测试中的应用

测试人

人工智能 软件测试

在 DevOps 实践中,如何构建自动化的持续集成和持续交付(CI/CD)管道,以提高开发和测试效率?

思码逸研发效能

DevOps 研发效能 研发效能度量 研发效能管理 思码逸

字节 GUI 代理模型 UI-TARS:具备像人一样的感知、推理、行动能力;SLAM-Omni:支持可控音色的语音对话模型

声网

2025年睡眠展|2025广州国际睡眠家居产品展会

秋硕展览

搜索技巧的逆袭:在AI统治的世界中寻找价值10分钟让你成为信息获取高手,效率提升300%!6个月构思,10天撰写(上)

AI决策者洞察

人工智能’ Prompt coze

智源研究院与乐聚机器人成立具身智能联合实验室

智源研究院

不同Redis持久化方案在库存场景的性能评测

晨章数据

NoSQL 数据库 kv 数据库、

Jetpack架构组件学习——使用Glance实现桌面小组件

不在线第一只蜗牛

架构

小米数据湖架构演进:Iceberg、Paimon 与 AI 场景下的实践|QCon 北京_大数据_QCon全球软件开发大会_InfoQ精选文章