写点什么

如何在 PB 级数据湖上实现 Parquet 查询 1000 倍性能提升|AICon 北京

  • 2025-06-04
    北京
  • 本文字数:980 字

    阅读完需:约 3 分钟

大小:522.01K时长:02:58
如何在 PB 级数据湖上实现 Parquet 查询 1000 倍性能提升|AICon北京

6 月 27 日-6 月 28 日,AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践,邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家,深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。


Alluxio 解决方案架构师汤文军已确认出席并发表题为《在 PB 级数据湖上实现 Parquet 查询 1000 倍性能提升》的主题分享,在 AWS S3 等云对象存储中将数据存储为 Parquet 文件,不仅在大规模数据湖中非常流行,而且还可作为用于训练和推理的轻量级特征存储,或作为用于检索增强生成(RAG)的文档存储。然而,直接从 S3 查询 PB 到 EB 级规模的数据湖所面对的共同挑战是速度很慢,延迟时间通常从数百毫秒到数秒不等。

此次演讲将介绍如何利用 Alluxio 作为超大规模数据湖上的高性能缓存和加速层,对 Parquet 文件进行查询。在不使用专用硬件,不更改数据格式或对象寻址方案,不从数据湖迁移数据的情况下,Alluxio 如何实现亚毫秒级的首字节时间(TTFB)性能,以及 Alluxio 的吞吐量与集群规模的线性扩展。



汤文军现任 Alluxio 解决方案架构师,专注于云原生以及分布式缓存技术,拥有超过 10 年的容器相关领域的公有云和私有云产品架构经验。当前致力于云原生和数据编排领域的融合,以推进 AI 场景下的计算性能优化。他在本次会议的详细演讲内容如下:


演讲提纲

  1. 数据驱动型组织直接在云对象存储上存储和提供 Parquet 文件的普遍方式,以及给 AI 应用所带来的挑战;

  2. 应对挑战的常见解决办法有哪些;

  3. 实现 Parquet 查询 1000 倍性能提升,Alluxio 系统架构及优化设计(单节点优化,可扩展的分布式层,计算卸载等);

  4. 低延迟存储方案的成本对比;

  5. 未来工作展望。


听众收益

  • 了解 Alluxio 的架构和工作原理,并学习核心优化技术

  • 了解数据湖查询性能优化实践,掌握查询优化的方法并了解实际案例


除此之外,本次大会还策划了AI Agent 构建与多场景实践多模态实践与应用大模型助力研发的实战经验AI 在业务运营中的深度落地大模型时代的数据处理与分析AI 变革下的工程师等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-06-04 10:373581

评论

发布
暂无评论

审计挖掘之CNVD通用漏洞

网络安全学海

黑客 网络安全 信息安全 WEB安全 漏洞挖掘

Linux之time命令

入门小站

Linux

死锁终结者:顺序锁和轮询锁!

王磊

Java 死锁 8月日更

今天聊一聊Golang的互斥锁吧

Regan Yue

互斥锁 互斥锁Mutex 8月日更

牛掰!“基础-中级-高级”Java程序员面试集结,看完献出我的膝盖

Java 编程 程序员 架构 面试

如何使用python制作动感炫酷的 动态二维码

4ye

Python 后端 二维码 8月日更

ShardingSphere UI 初步体验

源码 ShardingSphere

mycat入门:落地分库分表与读写分离

小鲍侃java

8月日更

区块链产业正处于繁荣前夜(上)

CECBC

JavaScript 中 Math.random() 生成随机数据

devpoint

JavaScript 8月日更 math

轻松让你的nginx服务器支持HTTP2协议

程序那些事

Java nginx HTTP 程序那些事 http2

架构实战营 模块六 作业

一雄

作业 架构实战营 模块六

JAVA应用生产问题排查步骤

Java 编程 架构 程序人生 架构师

架构实战训练营模块六作业

NewBranSTONE

#架构实战营

百度地图开发-绘制点线提示框 07

Andy阿辉

android Android 小菜鸟 Android端 8月日更

在线JSON转HTML工具

入门小站

工具

微校园小程序(云开发)设计方案

CC同学

谈 C++17 里的 Factory 模式

hedzr

c++ factory pattern c++17 factory method

Docker 系列 _ 01_ 一念缘起

编程三昧

Docker 8月日更

neo4j 基本概念与入门实例

escray

学习 neo4j 8月日更

ShardingSphere JDBC 语句执行初探

源码 ShardingSphere

区块链产业正处于繁荣前夜(下)

CECBC

☕【Java技术指南】「TestNG专题」单元测试框架之TestNG使用教程指南(上)

码界西柚

Java 测试 单元测试 8月日更 testNG

阿里的新“宠儿”!终于有人总结出了Spring源码从初级到高级手册

Java架构追梦

Java spring 阿里巴巴 架构 面试

一种单机支持 JavaWeb 容器万级并发的设想

Java 编程 程序员 面试

03. AI就是与人类思考方式相似的计算机程序:从仿生学看人工智能的定义

Databri_AI

人工智能

SSH免登陆

Mike

聊聊 PC 端自动化最佳方案 - Pywinauto

星安果

Python 自动化 Pywinauto PC

springboot使用redis(从配置到实战)

Python研究者

8月日更

CC校园运动小程序云开发解决方案

CC同学

成为高效工程师的四步法则

俞凡

生产力 认知

如何在 PB 级数据湖上实现 Parquet 查询 1000 倍性能提升|AICon北京_大数据_AICon 全球人工智能开发与应用大会_InfoQ精选文章