
6 月 27 日-6 月 28 日,AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践,邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家,深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。
AlluxioVP of Technology 范斌已确认出席并发表题为《加速 AI 推理与检索生成:在 PB 级数据湖上实现 Parquet 查询 1000 倍性能提升》的主题分享,在 AWS S3 等云对象存储中将数据存储为 Parquet 文件,不仅在大规模数据湖中非常流行,而且还可作为用于训练和推理的轻量级特征存储,或作为用于检索增强生成(RAG)的文档存储。然而,直接从 S3 查询 PB 到 EB 级规模的数据湖所面对的共同挑战是速度很慢,延迟时间通常从数百毫秒到数秒不等。
此次演讲将介绍如何利用 Alluxio 作为超大规模数据湖上的高性能缓存和加速层,对 Parquet 文件进行查询。在不使用专用硬件,不更改数据格式或对象寻址方案,不从数据湖迁移数据的情况下,Alluxio 如何实现亚毫秒级的首字节时间(TTFB)性能,以及 Alluxio 的吞吐量与集群规模的线性扩展。

范斌,Alluxio 创始成员和 VP of Technology。加入 Alluxio 前, 范斌在 Google 从事下一代大规模分布式存储系统的研究与开发。范斌博士毕业于卡内基梅隆大学计算机系,博士期间在分布式系统算法和系统实现等方向发表多篇包括 SIGCOMM、 SOSP、NSDI 等顶级国际会议论文以及多篇专利。他在本次会议的详细演讲内容如下:
演讲提纲
数据驱动型组织直接在云对象存储上存储和提供 Parquet 文件的普遍方式,以及给 AI 应用所带来的挑战;
应对挑战的常见解决办法有哪些;
实现 Parquet 查询 1000 倍性能提升,Alluxio 系统架构及优化设计(单节点优化,可扩展的分布式层,计算卸载等);
低延迟存储方案的成本对比;
未来工作展望。
听众收益
了解 Alluxio 的架构和工作原理,并学习核心优化技术
了解数据湖查询性能优化实践,掌握查询优化的方法并了解实际案例
除此之外,本次大会还策划了AI Agent 构建与多场景实践、多模态实践与应用、大模型助力研发的实战经验、AI 在业务运营中的深度落地、大模型时代的数据处理与分析、AI 变革下的工程师等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。
现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。

评论