
QCon 上海站开幕倒计时!如果你也关注 Agent、AI 搜索、多模态、工程化等话题,一定不要错过这 100+可落地的实践案例!
10 月 23 日-10 月 25 日,QCon全球软件开发大会将在上海举办。本次大会将聚焦 Agentic AI、具身智能、强化学习框架、端侧大模型实践、多智能体协作等热门话题,以及 AI 时代下的软件研发、可观测、开源等技术实践,邀请来自腾讯、阿里、字节跳动、华为、蚂蚁集团、小红书等企业的技术专家,和来自清华大学、北京邮电大学、浙江大学的顶尖高校讲师,和你一起重构技术认知与能力边界!
火山引擎 AI 数据湖研发负责人丁远普已确认出席并发表题为《AI 驱动的新基建:下一代多模态数据湖探索与实践》的主题分享。随着 LLM 和多模态 AI 技术的飞速发展,非结构化数据量呈指数级增长,这极大地增加了数据管理、检索、计算和存储的复杂性。传统的数据湖解决方案已难以适应 AI 场景下对数据的新需求。
为了应对这一挑战,新一代数据湖必须解决以下多模态数据带来的关键问题:
数据管理:传统数据管理侧重于库表结构,而面对多模态非结构化数据,如何实现高效管理 ?
数据处理:如何从非结构化数据中挖掘潜在价值,如何提高 CPU 和 GPU 利用率,如何使用模型来处理数据 ?
数据存储:传统数据湖格式在非结构化数据存储方面存在局限,是否可实现全模态数据的统一湖格式存储 ?
AI 场景支撑:多模态数据湖如何支撑 预训练、后训练、知识库、AI 搜索、智能体等场景的数据诉求?
本次演讲将分享下一代多模态数据湖探索与实践,包含新一代的技术架构,关键开源技术的更迭等。
丁远普,火山引擎 AI 数据湖研发负责人,拥有超过 10 年的大数据 B 端产品研发经验,当前负责火山引擎 EMR(开源大数据平台)、LAS(AI 数据湖服务)产品的研发工作。自 2023 年起开展 Data for AI 转型探索,在应对 AI 时代数据基建需求变更方面经验丰富。在结构化数据到多模态数据的管理、处理、存储,以及预训练、后训练、推理、AI 应用等方面,具备多个行业的落地实践经验。他在本次会议的详细演讲内容如下:
演讲提纲
1. 传统数据湖架构面临的挑战
传统数据湖架构与特点
无法高效管理多模态数据
数据处理技术栈的限制
传统湖格式存储多模态数据的问题
数据处理人员角色、经验、数据规模的变化
企业创新阵地的变更
2. 下一代面向 AI 的多模态数据湖
AI 数据湖参考架构
元数据 vs 数据集
数据处理引擎 or 模型
数据处理引擎 Ray 的优化与实践
面向 AI 设计的多模态数据处理新引擎介绍
引擎 & 模型统一数据处理
DataFrame and SQL AIQuery
如何优化模型调用
多模态数据湖格式 Lance
多模态数据存储的痛点
Lance 湖格式的优化和实践
异构存储的数据流动、分层、汰换
3. AI 数据湖的实践案例
模型训练场景实践
智驾行业实践案例
AI 应用场景实践案例
……
4. 未来规划与展望
当前未解的问题
看到的趋势
下一阶段的规划
您认为,这样的技术在实践过程中有哪些痛点?
AI 时代的数据湖架构是否会逐步形成一套标准,需要时间校验
新技术栈的成熟需要不断的迭代与演进,是挑战也是机遇
AI 时代的变化日新月异,对 Data Infra 的诉求也在快速变化中
演讲亮点
AI 时代对数据的诉求变更
新一代的技术架构,关键开源技术的更迭
遇到的问题与解法
听众收益
大数据时代的数据湖与 AI 时代的数据湖有巨大变化,全新的需求驱动下一代技术变革
了解服务于 AI 创新的多模态数据湖新架构、新技术介绍,我们的技术优化、实践、思考和总结
一起探讨下一阶段的创新
除此之外,本次大会还策划了多模态融合技术与创新应用、混沌工程与全链路压测实践、Data Infra for AI、Agentic AI、加速与反哺:AI 时代的可观测实践、Vibe Coding、端侧大模型的创新与应用、大模型推理的工程实践、AI 搜索技术的深水区、模型训练与微调、具身智能:当 AI 学会“动手思考”、大模型驱动的制造革命、AI4SE:软件研发提质增效实践、AI 重塑视觉创作体验、从“炫技”走向“实用”的 AI 产品、大模型驱动的智能数据分析等 20 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 上海站现场带来前沿技术洞察和一线实践经验。
目前,所有大会演讲嘉宾已结集完毕,更多详情可联系票务经理 18514549229 咨询。








评论