50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

AI 驱动的新基建:下一代多模态数据湖探索与实践|QCon 上海

  • 2025-10-22
    北京
  • 本文字数:1672 字

    阅读完需:约 5 分钟

大小:892.63K时长:05:04
AI 驱动的新基建:下一代多模态数据湖探索与实践|QCon 上海

QCon 上海站开幕倒计时!如果你也关注 Agent、AI 搜索、多模态、工程化等话题,一定不要错过这 100+可落地的实践案例!


10 月 23 日-10 月 25 日,QCon全球软件开发大会将在上海举办。本次大会将聚焦 Agentic AI、具身智能、强化学习框架、端侧大模型实践、多智能体协作等热门话题,以及 AI 时代下的软件研发、可观测、开源等技术实践,邀请来自腾讯、阿里、字节跳动、华为、蚂蚁集团、小红书等企业的技术专家,和来自清华大学、北京邮电大学、浙江大学的顶尖高校讲师,和你一起重构技术认知与能力边界!


火山引擎 AI 数据湖研发负责人丁远普已确认出席并发表题为AI 驱动的新基建:下一代多模态数据湖探索与实践的主题分享。随着 LLM 和多模态 AI 技术的飞速发展,非结构化数据量呈指数级增长,这极大地增加了数据管理、检索、计算和存储的复杂性。传统的数据湖解决方案已难以适应 AI 场景下对数据的新需求。

为了应对这一挑战,新一代数据湖必须解决以下多模态数据带来的关键问题:

  • 数据管理:传统数据管理侧重于库表结构,而面对多模态非结构化数据,如何实现高效管理 ?

  • 数据处理:如何从非结构化数据中挖掘潜在价值,如何提高 CPU 和 GPU 利用率,如何使用模型来处理数据 ?

  • 数据存储:传统数据湖格式在非结构化数据存储方面存在局限,是否可实现全模态数据的统一湖格式存储 ?

  • AI 场景支撑:多模态数据湖如何支撑 预训练、后训练、知识库、AI 搜索、智能体等场景的数据诉求?

本次演讲将分享下一代多模态数据湖探索与实践,包含新一代的技术架构,关键开源技术的更迭等。


丁远普,火山引擎 AI 数据湖研发负责人,拥有超过 10 年的大数据 B 端产品研发经验,当前负责火山引擎 EMR(开源大数据平台)、LAS(AI 数据湖服务)产品的研发工作。自 2023 年起开展 Data for AI 转型探索,在应对 AI 时代数据基建需求变更方面经验丰富。在结构化数据到多模态数据的管理、处理、存储,以及预训练、后训练、推理、AI 应用等方面,具备多个行业的落地实践经验。他在本次会议的详细演讲内容如下:


演讲提纲

1. 传统数据湖架构面临的挑战

  • 传统数据湖架构与特点

  • 无法高效管理多模态数据

  • 数据处理技术栈的限制

  • 传统湖格式存储多模态数据的问题

  • 数据处理人员角色、经验、数据规模的变化

  • 企业创新阵地的变更

2. 下一代面向 AI 的多模态数据湖

  • AI 数据湖参考架构

  • 元数据 vs 数据集

  • 数据处理引擎 or 模型

    数据处理引擎 Ray 的优化与实践

    面向 AI 设计的多模态数据处理新引擎介绍

    引擎 & 模型统一数据处理

    DataFrame and SQL AIQuery

    如何优化模型调用

  • 多模态数据湖格式 Lance

    多模态数据存储的痛点

    Lance 湖格式的优化和实践

    异构存储的数据流动、分层、汰换

3. AI 数据湖的实践案例

  • 模型训练场景实践

  • 智驾行业实践案例

  • AI 应用场景实践案例

  • ……

4. 未来规划与展望

  • 当前未解的问题

  • 看到的趋势

  • 下一阶段的规划

您认为,这样的技术在实践过程中有哪些痛点?

  • AI 时代的数据湖架构是否会逐步形成一套标准,需要时间校验

  • 新技术栈的成熟需要不断的迭代与演进,是挑战也是机遇

  • AI 时代的变化日新月异,对 Data Infra 的诉求也在快速变化中

演讲亮点

  • AI 时代对数据的诉求变更

  • 新一代的技术架构,关键开源技术的更迭

  • 遇到的问题与解法

听众收益

  • 大数据时代的数据湖与 AI 时代的数据湖有巨大变化,全新的需求驱动下一代技术变革

  • 了解服务于 AI 创新的多模态数据湖新架构、新技术介绍,我们的技术优化、实践、思考和总结

  • 一起探讨下一阶段的创新


除此之外,本次大会还策划了多模态融合技术与创新应用混沌工程与全链路压测实践Data Infra for AIAgentic AI加速与反哺:AI 时代的可观测实践Vibe Coding端侧大模型的创新与应用大模型推理的工程实践AI 搜索技术的深水区模型训练与微调具身智能:当 AI 学会“动手思考”大模型驱动的制造革命AI4SE:软件研发提质增效实践AI 重塑视觉创作体验从“炫技”走向“实用”的 AI 产品大模型驱动的智能数据分析等 20 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 上海站现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,更多详情可联系票务经理 18514549229 咨询。


2025-10-22 13:375

评论

发布
暂无评论

Burp Suite Professional 2025.7 (macOS, Linux, Windows) - Web 应用安全、测试和扫描

sysin

burp

Microsoft SQL Server 2019 RTM GDR & CU32 (2025 年 7 月更新)

sysin

SQL Server

Microsoft Exchange Server 2019 Cumulative Update 15

sysin

Microsoft Exchange

开源能源管理系统:数字化时代能源安全与效能提升的核心引擎

开源能源管理系统

开源 能源管理系统

群聊记录太多怎么办? 用 TRAE + Chatlog MCP 实现微信群聊记录总结

火山引擎开发者社区

MCP Trae

Microsoft SQL Server 2022 RTM GDR & CU20 (2025 年 7 月更新)

sysin

SQL Server

Proxmox Mail Gateway 8.2 - 全面的开源邮件安全平台

sysin

Proxmox

Jarvis Agent 使用指南

SkyFire

agent LLM Jarvis

火山引擎DataAgent:AI完成从“数据洞察”到“自主行动”质变

火山引擎开发者社区

AI 火山引擎

10年JAVA转GO,冲刺金九银十30K+,中间件深挖和拷打,踩坑分享

王中阳Go

Go 面试

保险科技行业需要用到堡垒机吗?哪些情况需要?

行云管家

网络安全 数据安全 堡垒机

Microsoft SQL Server 下载汇总 (2025 年 7 月更新)

sysin

SqlServer

Microsoft SQL Server 2016 with SP3 GDR (2025 年 7 月更新)

sysin

SQL Server

Microsoft SQL Server 2017 RTM GDR & CU31 (2025 年 7 月更新)

sysin

SQL Server

Jarvis Agent 核心概念与系统架构

SkyFire

agent LLM Jarvis

Jarvis Agent高级主题

SkyFire

agent LLM Jarvis

Proxmox Backup Server 4.0 Beta - 开源企业级备份解决方案

sysin

Proxmox

Metasploit Pro 4.22.8-2025063001 (Linux, Windows) - 专业渗透测试框架

sysin

Metasploit

JetBrains TRAE 插件上线 cue 能力,立即体验

火山引擎开发者社区

Trae

AI如何重塑芯片设计未来

qife122

半导体 芯片设计

TRAE + Milvus MCP,现在用自然语言就能搞定向量数据库部署了!

火山引擎开发者社区

字节跳动 Trae

Windows Server 2025 中文版、英文版下载 (2025 年 7 月更新)

sysin

Windows Server

Nexpose 8.15.1 for Linux & Windows - 漏洞扫描

sysin

Nexpose

Jarvis Agent快速开始

SkyFire

agent LLM

Microsoft Exchange Server 2016 Cumulative Update 23

sysin

Microsoft Exchange

Proxmox VE 9.0 Beta - 开源虚拟化管理平台

sysin

proxmoxve

年损耗超2300万!制造业工具管理困局背后的RFID破局之道

斯科信息

RFID解决方案 斯科信息 RFID技术

SQL Server Management Studio (SSMS) 21 - 微软数据库管理工具

sysin

SSMS

Jarvis Agent功能扩展

SkyFire

agent LLM Jarvis

微店商品列表API响应数据解析

tbapi

微店API 微店商品数据采集 微店商品列表接口

“高并发”对于Python爬虫有多重要?反封控的底层逻辑在这!

kookeey代理严选

python 爬虫 高并发 海外IP 动态代理IP 静态住宅IP

AI 驱动的新基建:下一代多模态数据湖探索与实践|QCon 上海_AI&大模型_QCon全球软件开发大会_InfoQ精选文章