【锁定直播】字节、华为云、阿里云等技术专家讨论如何将大模型接入 AIOps 解决实际问题,戳>>> 了解详情
写点什么

Presto 即服务:AWS 上的交互式 SQL 查询

  • 2014-02-17
  • 本文字数:1241 字

    阅读完需:约 4 分钟

作为 Facebook 公司的一项可用作在 PB 级规模的数据上执行交互式 SQL 查询的技术, Presto 现在已经迈出了步入主流应用的第一步。大数据创业公司 Qubole 日前发布了与 Amazon Web Services 集成的 Presto 即服务 alpha 版本

这套新系统与目前已经集成的 Hadoop、Hive 以及 Pig,都属于 Qubole 公司不断发展壮大的平台 Qubole Data Service (QDS)中的一部分。由于 Presto 原生集成了 Hive、Hbase 和关系型数据库,因此它的这种特性使得它非常适合这类管理服务。作为 Qubole 公司的联合创始人, Ashish Thusoo Joydeep Sen Sarma 曾创建了 Hive,并且把 HBase 带到了 Facebook,因此对于他们来说,这一步看起来顺理成章。这项服务的一个主要用例就是通过查询 Hive 表以取得存储在 S3 上的数据,这样一来 QDS 的用户就可以很方便地基于这些表执行查询操作了。Qubole 目前的服务都是以 AWS 为中心构建的,原因正如 Ashish 所说,“这是由我们目前的需求决定的”。Qubole 将自己定位为昂贵的数据仓库系统的替代品,就像 Qubole 的工程副总裁 Shrikanth Shankar 所说,“对于那些之前依赖昂贵的商业技术进行快速分析工作的用户来说,Presto 将为他们带来巨大的价值。”

在大数据领域内,Presto 实际上是一项相对较新的技术。Facebook 的这个项目开始于 2012 年秋,并在 2013 年上半年正式上线,最终在 2013 年 11 月完全开源。Presto 背后所使用的执行模式与 Hive 有根本的不同,它没有使用 MapReduce,这一点与其他 SQL 查询引擎(例如 Cloudera Impala UC Berkeley Shark )很像。其中的关键是所有的处理都在内存中完成,正如 Ashish 所说,“Presto 更适合运行在配有更大内存的实例上。”这也是为什么 Presto 能够获得比 Hive 低几个数量级延迟的主要原因之一。但是由于 Stinger 项目给 Hive 12 带来的性能改善,因此 Presto 与 Hive 12 间孰优孰劣目前尚且不明,正如 Ashish 所描述的一样:

Hive 肯定也会变得更快。我们已经进行了一些初步的测试,很快就会在博客中公布测试的结果。

就其可扩展性方面来说,应用在 Facebook 的 300PB 规模的数据仓库系统中的这一事实充分证明了它的可靠性。另外其他一些公司,例如 AirBnb Dropbox ,也都开始采用 Presto,“在我们的绝大多数用例中,它都比 Hive 要快一个数量级”,Dropbox 的线上分析经理 Christopher Gutierrez 如是说。

伴随着 Qubole 这个新服务的发布,Presto 社区将会进一步发展壮大,就连 Siva Narayanan 这样的 Qubole 开发者都在 Presto 群组中表示他们“打算做 Presto 王国中的好市民,并且期待着为 Presto 项目的主干贡献补丁和功能”。凭借着 GitHub 上超过 2000 颗星和 350 次的分支,Presto 项目已经变得比其他类似的并且更早的开源项目(例如 Impala )更为流行。

查看英文原文: Presto 即服务:AWS 上的交互式 SQL 查询


感谢梅雪松对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2014-02-17 07:332265

评论

发布
暂无评论
发现更多内容

查询 MySQL 字段注释的 5 种方法!

王磊

深入理解static关键字

编程江湖

static关键字

性能场景之压测策略设计

zuozewei

性能测试 性能分析 1月月更

AI开发平台系列2:集成式机器学习平台对比分析

Baihai IDP

AI

Rust - mmap 简单写性能比较测试

rust Mmap

1 月月更|盘点 2021|推荐学Java——数据表操作

逆锋起笔

Java MySQL 数据库表 多表查询 关联查询

【Spring专场】「MVC容器」不看源码就带你认识核心流程以及运作原理

洛神灬殇

springmvc Spring Framework Spring MVC 1月月更

模块四

黄秀明

「架构实战营」

中年人对酒的看法

wood

300天创作

表设计之数据类型优化

Ayue、

数据库 1月月更

Flutter:创建一个自动调整大小的 TextField

坚果

flutter 1月月更

java集合【13】——— Stack源码分析走一波

秦怀杂货店

Java 源码分析 集合

教你如何在Spark Scala/Java应用中调用Python脚本

华为云开发者联盟

Python spark 脚本 Spark Scala Spark java

前后端分离 -- 深入浅出Spring Boot + Vue实现员工管理系统 Vue如此简单~

Bug终结者

Vue 前后端分离 Java 分布式 elementUI

kafka的优缺点都有那些

编程江湖

kafka

模块四

浮生若梦

Hive UDF,就这

华为云开发者联盟

sql 函数 UDF Hive UDF 用户自定义函数

快来一起玩转LiteOS组件:RHas

华为云开发者联盟

C语言 LiteOS 组件 RHas 哈希函数库

ReactNative进阶(十):WebView 应用详解

No Silver Bullet

webview React Native 1月月更

浅谈数据中台和DataFabric的差异

Kafka中文社区

Java&Go高性能队列之LinkedBlockingQueue性能测试

FunTester

Disruptor 性能测试 消息队列 FunTester 高性能消息队列

netty系列之:JVM中的Reference count原来netty中也有

程序那些事

Java Netty 程序那些事 1月月更

前端质量提升利器-马可代码覆盖率平台

vivo互联网技术

前端 代码 平台架构

java开发框架Redis之sentinel和集群

@零度

redis JAVA开发

Vue的动态组件 & 异步组件

编程江湖

Vue

谁说count(*) 性能最差,我需要跟你聊聊

华为云开发者联盟

函数 count 字符 数据表

架构实战营 - 模块 4 - 作业

Pyel

「架构实战营」

请说出4种不使用第三方变量交换两个变量值的方法

阿Q说代码

位运算 1月月更 交换变量

美团李凯揭秘数据库发展三大趋势 | TiDB Hackathon 评委访谈

PingCAP

云单元架构,如何赋能数字化转型呢?

博文视点Broadview

Apache Flink 不止于计算,数仓架构或兴起新一轮变革

Apache Flink

大数据 flink 编程 实时计算 流式数仓

Presto即服务:AWS上的交互式SQL查询_DevOps & 平台工程_Charles Menguy_InfoQ精选文章