2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

小米数据湖架构演进:Iceberg、Paimon 与 AI 场景下的实践|QCon 北京

  • 2025-04-07
    北京
  • 本文字数:1061 字

    阅读完需:约 3 分钟

大小:555.44K时长:03:09
小米数据湖架构演进:Iceberg、Paimon 与 AI 场景下的实践|QCon 北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下一步的技术决策提供方向。


小米数据负责人李培殿已确认出席并发表题为《小米数据湖架构演进:Iceberg、Paimon 与 AI 场景下的实践》的主题分享。本次演讲主要小米数据湖架构 Iceberg 及 Paimon 演进的历程,并介绍小米使用 Apache Gravitino 统一元数据,以及使用 Fileset 进行非表格数据管理和使用上的经验。同时将分享在实际业务中如何有效的使用 Iceberg、Paimon 和 Fileset 来实现的数据在 Data 和 AI 场景的快速流转。


李培殿是小米数据负责人,在小米参与流式计算 Flink,数据湖 Iceberg,Paimon,元数据湖 Gravitino 等开发工作,同时负责小米大模型数据预处理相关工作。他在本次会议的详细演讲内容如下:


演讲提纲

1. 小米数据湖架构

  • 介绍小米当前数据湖架构

  • 介绍当前小米数据湖的使用情况

2. 从 Iceberg 到 Paimon

  • 介绍 Iceberg 使用的问题,为什么引入 Paimon

3. AI 场景下非表格数据的管理和使用

  • 介绍使用 Fileset 来管理非表格数据的应用实践

4. 统一元数据

  • 为什么要做统一元数据

  • 介绍使用 Gravitino 来统一元数据的落地实践

5. 实际业务案例

  • 以大模型数据预处理业务为例,介绍如何使用数据湖高效的完成 Data 到 AI 的数据流转

6. 未来规划

  • 统一的云原生湖仓架构

  • 统一元数据


您认为,这样的技术在实践过程中有哪些痛点?

  • 如何高效的实现 Data 到 AI 场景的数据流转

  • 表和文件如何选择,AI 场景下是否可以使用数据湖


演讲亮点

  • Iceberg、Paimon 在小米最新的落地实践

  • 介绍非表格和元数据在小米的实践及业务价值


听众收益

  • 了解统一元数据在小米的实践案例

  • AI 场景下实际的业务价值


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情信息可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-04-07 10:006754

评论

发布
暂无评论

实时数仓Workshop · 广州站 9.15 邀您参加!

Apache Flink

大数据 flink 流计算 实时计算 实时数仓

“外卖式”售后服务体验来袭 沃丰科技ServiceGo让售后服务更智能

sofiya

Spring永远的神,这绝对是目前最全面的spring全家桶学习笔记

Geek_Yin

spring 编程 程序员 Java、 跳槽季

制造业专家黄培博士:沃丰科技ServiceGo 智能售后服务成就高绩效企业

科技怪咖

中国掀起数字化浪潮|沃丰科技AI外呼机器人助家电企业潜客筛选自动化

科技怪咖

对话HR专家崔晓燕 沃丰科技AI+HRSSC如何提升企业人效

科技怪咖

Python 教程之数据分析(1)—— 使用 Bokeh 进行数据可视化

海拥(haiyong.site)

Python Bokeh 8月月更

再谈回声消除测评丨Dev for Dev 专栏

声网

音频 Dev for Dev 实时互动

兆骑科创创新创业服务平台——创新创业的联通之桥

兆骑科创凤阁

华为云“828 B2B企业节”,积木易搭云速3D云展与您不见不散

sofiya

Salesforce解散中国团队,国产SaaS软件如何完美替代

sofiya

兆骑科创创投平台,赛事活动承办,高层次人才引进

兆骑科创凤阁

明势资本黄明明:创新与世界,下一代基础软件的中国突围之路

TDengine

数据库 tdengine 时序数据库

01_Linux基础-部署-VMware-Xshell-Xftp-内核-安迪比尔定理

mycpen

Linux

多路混流实操流程

ZEGO即构

TDengine 的存储引擎升级之路

TDengine

数据库 tdengine 时序数据库

系统故障工程师居然可以不背锅?看看几家大厂是怎么做到的!(内附复盘模板)

TakinTalks稳定性社区

SRE 故障 定责

iOS端如何实现MobLink的场景还原功能

MobTech袤博科技

ios sdk moblink

HR拥抱人工智能 沃丰科技AI助力星巴克、泰康保险打造智慧HR中心

sofiya

AI加持沃丰科技ServiceGo智能售后,让制造业服务提升“肉眼可见

sofiya

央企数智化转型实践沃丰科技AI助招采平台打造全新客服体系

科技怪咖

EMQX + PolarDB-X 一站式 IoT 数据解决方案

阿里云数据库开源

数据库 阿里云 开源 :MySQL 数据库 PolarDB-X

如何进行企业数字化转型?数字化转型的3大核心规律

优秀

企业数字化转型

信息化赋能,移动办公系统WorkPlus助推智慧检务工作安全高效发展

BeeWorks

区块链合约安全系列(四):如何认识及预防公链合约中的算术溢出攻击

BSN研习社

区块链 智能合约

阿里云实时计算 Flink 版 x Hologres: 构建企业级一站式实时数仓

Apache Flink

大数据 flink 流计算 实时计算 实时数仓

芒果TV创新研究院联合腾讯云发布“虚拟人直播互动平台”,支持千人沉浸式体验

科技热闻

夯实中国智能制造软实力沃丰科技ServiceGo让物流机器人龙头企业售后无忧

科技怪咖

新定位人工智能+营销服务 沃丰科技入选国家级专精特新“小巨人”

科技怪咖

客户案例|雅森帮携手观测云,保障海量在线用户服务体验

观测云

小米数据湖架构演进:Iceberg、Paimon 与 AI 场景下的实践|QCon 北京_大数据_QCon全球软件开发大会_InfoQ精选文章