写点什么

加速 AI 推理与检索生成:在 PB 级数据湖上实现 Parquet 查询 1000 倍性能提升|AICon 北京

  • 2025-06-04
    北京
  • 本文字数:1027 字

    阅读完需:约 3 分钟

大小:522.01K时长:02:58
加速 AI 推理与检索生成:在 PB 级数据湖上实现 Parquet 查询 1000 倍性能提升|AICon北京

6 月 27 日-6 月 28 日,AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践,邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家,深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。


AlluxioVP of Technology 范斌已确认出席并发表题为《加速 AI 推理与检索生成:在 PB 级数据湖上实现 Parquet 查询 1000 倍性能提升》的主题分享,在 AWS S3 等云对象存储中将数据存储为 Parquet 文件,不仅在大规模数据湖中非常流行,而且还可作为用于训练和推理的轻量级特征存储,或作为用于检索增强生成(RAG)的文档存储。然而,直接从 S3 查询 PB 到 EB 级规模的数据湖所面对的共同挑战是速度很慢,延迟时间通常从数百毫秒到数秒不等。

此次演讲将介绍如何利用 Alluxio 作为超大规模数据湖上的高性能缓存和加速层,对 Parquet 文件进行查询。在不使用专用硬件,不更改数据格式或对象寻址方案,不从数据湖迁移数据的情况下,Alluxio 如何实现亚毫秒级的首字节时间(TTFB)性能,以及 Alluxio 的吞吐量与集群规模的线性扩展。



范斌,Alluxio 创始成员和 VP of Technology。加入 Alluxio 前, 范斌在 Google 从事下一代大规模分布式存储系统的研究与开发。范斌博士毕业于卡内基梅隆大学计算机系,博士期间在分布式系统算法和系统实现等方向发表多篇包括 SIGCOMM、 SOSP、NSDI 等顶级国际会议论文以及多篇专利。他在本次会议的详细演讲内容如下:


演讲提纲

  1. 数据驱动型组织直接在云对象存储上存储和提供 Parquet 文件的普遍方式,以及给 AI 应用所带来的挑战;

  2. 应对挑战的常见解决办法有哪些;

  3. 实现 Parquet 查询 1000 倍性能提升,Alluxio 系统架构及优化设计(单节点优化,可扩展的分布式层,计算卸载等);

  4. 低延迟存储方案的成本对比;

  5. 未来工作展望。


听众收益

  • 了解 Alluxio 的架构和工作原理,并学习核心优化技术

  • 了解数据湖查询性能优化实践,掌握查询优化的方法并了解实际案例


除此之外,本次大会还策划了AI Agent 构建与多场景实践多模态实践与应用大模型助力研发的实战经验AI 在业务运营中的深度落地大模型时代的数据处理与分析AI 变革下的工程师等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-06-04 10:374502

评论

发布
暂无评论

To B的软件产品死结怎么解?

刘华Kenneth

tob产品 客户服务

腾讯云TDSQL助力金融核心系统数字化转型

腾讯云数据库

数据库 tdsql

TDSQL数据同步和备份

腾讯云数据库

数据库 tdsql

谈谈汽车芯片信息安全(上篇)

SOA开发者

冲破“薪资”瓶颈,某厂的玩转Java面试指南,他看完涨薪10k了!

Java 程序员 架构 编程语言

直击灵魂!美团大牛手撸并发原理笔记,由浅入深剖析JDK源码

Java 编程 架构 面试 程序人生

智能网联汽车安全架构系列1:ECU安全机制介绍

SOA开发者

第4章-《Linux一学就会》- vim编辑器和恢复ext4下误删文件-Xmanager工具

学神来啦

vim Linux 运维 VI

2021中国规模化敏捷大会(早鸟票倒计时)

AmyGuo

DevOps 敏捷开发 Scrum精髓 硬件敏捷 规模化敏捷

2021字节跳动面试总监首发1121道LeetCode算法刷题笔记(含答案)

Java 面试 程序人生 计算机

千万级学生管理系统的考试试卷存储方案

Geek_db27b5

架构作业 - 模块四 存储架构

Leo Zhao

架构训练营

“碳中和”的未来蓝图中,区块链所占据的重要位置

CECBC

一张图读懂Z-ONE Digital Car

SOA开发者

横空出世!复盘B站面试坑我最深的JDK源码剖析,全是干货!

Java 程序员 架构 架构师 计算机

北京建全球领先区块链算力平台,可满足未来各类场景需求

CECBC

腾讯云TDSQL-C云原生数据库技术

腾讯云数据库

数据库 tdsql

地铁3D可视化,让一切尽在掌握

ThingJS数字孪生引擎

可视化

设计千万级学生管理系统的考试试卷存储方案

缘分呐

架构设计实战

八月热点抢先看:EasyDL图像分割数据自动贴合标注,标注效率提升30倍+

百度大脑

人工智能

金九银十已经过半还没拿到offer?阿里大牛熬夜整理的Java面试总结,网友已被震惊到说不出话!

Java 编程 面试 程序人生 金九银十

云计算科普:Pets(宠物)和Cattle(牲口)傻傻分不清楚?

刘华Kenneth

云计算 架构 云技术

谈谈汽车芯片安全(下篇)

SOA开发者

使用Tapdata一步搞定关系型数据库到MongoDB的战略迁移

tapdata

拥抱云原生,华为云GaussDB全新助力金融行业数字化转型

华为云数据库小助手

GaussDB GaussDB(for openGauss) 华为云数据库

华为云正式推出区块链服务!区块链技术将在数字经济时代大放异彩

CECBC

浪潮云说丨浪潮云行·物联边缘云产品,让物联感知无微不至

云计算,

硬件Scrum指南

AmyGuo

Scrum 敏捷开发 硬件架构 硬件开发‘ 硬件敏捷

软件定义汽车技术体系研究

SOA开发者

双碳目标带来的机遇与挑战

石云升

新能源革命 碳中和 碳达峰 9月日更

斯图飞腾Stratifyd亮相Smart Retail,AI赋能零售新增长

加速 AI 推理与检索生成:在 PB 级数据湖上实现 Parquet 查询 1000 倍性能提升|AICon北京_大数据_AICon 全球人工智能开发与应用大会_InfoQ精选文章