写点什么

AI 驱动的新基建:下一代多模态数据湖探索与实践|QCon 上海

  • 2025-10-22
    北京
  • 本文字数:1672 字

    阅读完需:约 5 分钟

大小:892.63K时长:05:04
AI 驱动的新基建:下一代多模态数据湖探索与实践|QCon 上海

QCon 上海站开幕倒计时!如果你也关注 Agent、AI 搜索、多模态、工程化等话题,一定不要错过这 100+可落地的实践案例!


10 月 23 日-10 月 25 日,QCon全球软件开发大会将在上海举办。本次大会将聚焦 Agentic AI、具身智能、强化学习框架、端侧大模型实践、多智能体协作等热门话题,以及 AI 时代下的软件研发、可观测、开源等技术实践,邀请来自腾讯、阿里、字节跳动、华为、蚂蚁集团、小红书等企业的技术专家,和来自清华大学、北京邮电大学、浙江大学的顶尖高校讲师,和你一起重构技术认知与能力边界!


火山引擎 AI 数据湖研发负责人丁远普已确认出席并发表题为AI 驱动的新基建:下一代多模态数据湖探索与实践的主题分享。随着 LLM 和多模态 AI 技术的飞速发展,非结构化数据量呈指数级增长,这极大地增加了数据管理、检索、计算和存储的复杂性。传统的数据湖解决方案已难以适应 AI 场景下对数据的新需求。

为了应对这一挑战,新一代数据湖必须解决以下多模态数据带来的关键问题:

  • 数据管理:传统数据管理侧重于库表结构,而面对多模态非结构化数据,如何实现高效管理 ?

  • 数据处理:如何从非结构化数据中挖掘潜在价值,如何提高 CPU 和 GPU 利用率,如何使用模型来处理数据 ?

  • 数据存储:传统数据湖格式在非结构化数据存储方面存在局限,是否可实现全模态数据的统一湖格式存储 ?

  • AI 场景支撑:多模态数据湖如何支撑 预训练、后训练、知识库、AI 搜索、智能体等场景的数据诉求?

本次演讲将分享下一代多模态数据湖探索与实践,包含新一代的技术架构,关键开源技术的更迭等。


丁远普,火山引擎 AI 数据湖研发负责人,拥有超过 10 年的大数据 B 端产品研发经验,当前负责火山引擎 EMR(开源大数据平台)、LAS(AI 数据湖服务)产品的研发工作。自 2023 年起开展 Data for AI 转型探索,在应对 AI 时代数据基建需求变更方面经验丰富。在结构化数据到多模态数据的管理、处理、存储,以及预训练、后训练、推理、AI 应用等方面,具备多个行业的落地实践经验。他在本次会议的详细演讲内容如下:


演讲提纲

1. 传统数据湖架构面临的挑战

  • 传统数据湖架构与特点

  • 无法高效管理多模态数据

  • 数据处理技术栈的限制

  • 传统湖格式存储多模态数据的问题

  • 数据处理人员角色、经验、数据规模的变化

  • 企业创新阵地的变更

2. 下一代面向 AI 的多模态数据湖

  • AI 数据湖参考架构

  • 元数据 vs 数据集

  • 数据处理引擎 or 模型

    数据处理引擎 Ray 的优化与实践

    面向 AI 设计的多模态数据处理新引擎介绍

    引擎 & 模型统一数据处理

    DataFrame and SQL AIQuery

    如何优化模型调用

  • 多模态数据湖格式 Lance

    多模态数据存储的痛点

    Lance 湖格式的优化和实践

    异构存储的数据流动、分层、汰换

3. AI 数据湖的实践案例

  • 模型训练场景实践

  • 智驾行业实践案例

  • AI 应用场景实践案例

  • ……

4. 未来规划与展望

  • 当前未解的问题

  • 看到的趋势

  • 下一阶段的规划

您认为,这样的技术在实践过程中有哪些痛点?

  • AI 时代的数据湖架构是否会逐步形成一套标准,需要时间校验

  • 新技术栈的成熟需要不断的迭代与演进,是挑战也是机遇

  • AI 时代的变化日新月异,对 Data Infra 的诉求也在快速变化中

演讲亮点

  • AI 时代对数据的诉求变更

  • 新一代的技术架构,关键开源技术的更迭

  • 遇到的问题与解法

听众收益

  • 大数据时代的数据湖与 AI 时代的数据湖有巨大变化,全新的需求驱动下一代技术变革

  • 了解服务于 AI 创新的多模态数据湖新架构、新技术介绍,我们的技术优化、实践、思考和总结

  • 一起探讨下一阶段的创新


除此之外,本次大会还策划了多模态融合技术与创新应用混沌工程与全链路压测实践Data Infra for AIAgentic AI加速与反哺:AI 时代的可观测实践Vibe Coding端侧大模型的创新与应用大模型推理的工程实践AI 搜索技术的深水区模型训练与微调具身智能:当 AI 学会“动手思考”大模型驱动的制造革命AI4SE:软件研发提质增效实践AI 重塑视觉创作体验从“炫技”走向“实用”的 AI 产品大模型驱动的智能数据分析等 20 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 上海站现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,更多详情可联系票务经理 18514549229 咨询。


2025-10-22 13:374339

评论

发布
暂无评论

搞定react源码 惊艳面试官

buchila11

React

万字详解什么是生成对抗网络GAN

华为云开发者联盟

算法 推荐算法 GAN 强化学习 生成对抗网络

保险行业办理过等保选择哪家好?有成功案例吗?

行云管家

网络安全 等保 等级保护 等保2.0

Redis分布式锁的正确使用

编程江湖

redis java编程

大数据开发之Hadoop家族都有谁

@零度

大数据 hadoop

一个渐进式微前端框架 - Fronts

RingCentral铃盛

架构 大前端 测试 经验分享

🍃【Spring专题】「实战系列」spring注解@ConditionalOnExpression详细使用说明

码界西柚

spring Spring Framework Condition 12月日更 ConditionOnExpression

【喜讯】尚硅谷西安分校成立啦

@零度

尚硅谷 西安分校成立

uni-app技术分享| uniapp实现直播旁路推流

anyRTC开发者

uni-app 音视频 视频直播 视频通话 旁路推流

The Data Way Vol.7|从故事里寻找开源的『内核』

SphereEx

Apache 开源 播客 Meetup SphereEx

解析云原生2.0架构设计的8大关键趋势

华为云开发者联盟

云原生 架构设计 数据治理 存算分离 分布式云

学习react源码 征服面试官

buchila11

React

Linux一学就会之重定向和文件的查找(Linux下一切皆文件)

学神来啦

Linux 运维 linux云计算 linux一学就会

结算中心全国集中化支撑解决之道

鲸品堂

Vue.js 的九个性能优化技巧

编程江湖

Vue 大前端

产品经理进阶(一)Web APP UI一致性设计

No Silver Bullet

产品经理 12月日更

伴鱼基于 Flink 构建数据集成平台的设计与实现

Apache Flink

大数据 flink 编程 后端 实时计算

埃文科技上榜CCSIP 2021中国网络安全产业全景图3大安全模块

郑州埃文科技

网络安全 ip技术 全景图

「MySQL」数据库备份和还原

恒生LIGHT云社区

MySQL 数据库 MySQL 数据库

零代码训练营第七期本月启动,现正开放报名!

明道云

【混合云小知识】混合云应用场景包含哪些?

行云管家

云计算 混合云

模块一课程作业

李晓笛

前端面试题之模块化开发

@零度

大前端 模块化

API标准化对Dapr的重要性

行云创新

万众提供素材,万众联合创作

mtfelix

28天写作

羊肉泡馍我们来了,尚硅谷西安分校设立首期特惠

编程江湖

编程开发

如何用GoldWave将音频添加生成机械化音效

懒得勤快

怎么排查是哪里出现了数据倾斜

编程江湖

大数据 数据倾斜

热门盘点:企业该如何对待低代码?应不应该选择低代码?

优秀

低代码

华为云应用构建技术实践精选集

华为云开发者联盟

云计算 华为云 内容合集 技术专题合集 应用构建

AI 驱动的新基建:下一代多模态数据湖探索与实践|QCon 上海_AI&大模型_QCon全球软件开发大会_InfoQ精选文章