最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

Presto 即服务:AWS 上的交互式 SQL 查询

  • 2014-02-17
  • 本文字数:1241 字

    阅读完需:约 4 分钟

作为 Facebook 公司的一项可用作在 PB 级规模的数据上执行交互式 SQL 查询的技术, Presto 现在已经迈出了步入主流应用的第一步。大数据创业公司 Qubole 日前发布了与 Amazon Web Services 集成的 Presto 即服务 alpha 版本

这套新系统与目前已经集成的 Hadoop、Hive 以及 Pig,都属于 Qubole 公司不断发展壮大的平台 Qubole Data Service (QDS)中的一部分。由于 Presto 原生集成了 Hive、Hbase 和关系型数据库,因此它的这种特性使得它非常适合这类管理服务。作为 Qubole 公司的联合创始人, Ashish Thusoo Joydeep Sen Sarma 曾创建了 Hive,并且把 HBase 带到了 Facebook,因此对于他们来说,这一步看起来顺理成章。这项服务的一个主要用例就是通过查询 Hive 表以取得存储在 S3 上的数据,这样一来 QDS 的用户就可以很方便地基于这些表执行查询操作了。Qubole 目前的服务都是以 AWS 为中心构建的,原因正如 Ashish 所说,“这是由我们目前的需求决定的”。Qubole 将自己定位为昂贵的数据仓库系统的替代品,就像 Qubole 的工程副总裁 Shrikanth Shankar 所说,“对于那些之前依赖昂贵的商业技术进行快速分析工作的用户来说,Presto 将为他们带来巨大的价值。”

在大数据领域内,Presto 实际上是一项相对较新的技术。Facebook 的这个项目开始于 2012 年秋,并在 2013 年上半年正式上线,最终在 2013 年 11 月完全开源。Presto 背后所使用的执行模式与 Hive 有根本的不同,它没有使用 MapReduce,这一点与其他 SQL 查询引擎(例如 Cloudera Impala UC Berkeley Shark )很像。其中的关键是所有的处理都在内存中完成,正如 Ashish 所说,“Presto 更适合运行在配有更大内存的实例上。”这也是为什么 Presto 能够获得比 Hive 低几个数量级延迟的主要原因之一。但是由于 Stinger 项目给 Hive 12 带来的性能改善,因此 Presto 与 Hive 12 间孰优孰劣目前尚且不明,正如 Ashish 所描述的一样:

Hive 肯定也会变得更快。我们已经进行了一些初步的测试,很快就会在博客中公布测试的结果。

就其可扩展性方面来说,应用在 Facebook 的 300PB 规模的数据仓库系统中的这一事实充分证明了它的可靠性。另外其他一些公司,例如 AirBnb Dropbox ,也都开始采用 Presto,“在我们的绝大多数用例中,它都比 Hive 要快一个数量级”,Dropbox 的线上分析经理 Christopher Gutierrez 如是说。

伴随着 Qubole 这个新服务的发布,Presto 社区将会进一步发展壮大,就连 Siva Narayanan 这样的 Qubole 开发者都在 Presto 群组中表示他们“打算做 Presto 王国中的好市民,并且期待着为 Presto 项目的主干贡献补丁和功能”。凭借着 GitHub 上超过 2000 颗星和 350 次的分支,Presto 项目已经变得比其他类似的并且更早的开源项目(例如 Impala )更为流行。

查看英文原文: Presto 即服务:AWS 上的交互式 SQL 查询


感谢梅雪松对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2014-02-17 07:332267

评论

发布
暂无评论
发现更多内容

更专业、安全的过等保,华为云等保合规解决方案值得选择

IT科技苏辞

工赋开发者社区 | MES/MOM数据采集系统需求分析和总体设计

工赋开发者社区

【Java技术专题】「盲点追踪」突破知识盲点分析Java安全管理器(SecurityManager)

洛神灬殇

Java 安全管理器 SecurityManager

fabric.js开发图片编辑器可以实现哪些功能?多图

秦少卫

h5编辑器 FabricJS Fabric.js 海报编辑器 图片编辑

布隆过滤器的设计之美,后端程序员一定要好好体会

程序员小毕

程序员 数据结构 面试 后端 布隆过滤器

华为云等保合规解决方案,助力企业高效过等保

秃头也爱科技

克隆远端项目,idea 自动生成了一个.idea 文件夹,怎么办?

bug菌

git IDEA .gitignore 三周年连更

Amazon 中国区配置 PingIdentity 身份集成实现 Redshift 数据库群集单点登录

亚马逊云科技 (Amazon Web Services)

让算力普惠、释放技术红利,阿里云让开发者成为创新主体

阿里巴巴云原生

阿里云 Serverless 云原生 函数计算

Golang负载均衡器Balancer的源码解读

骑牛上青山

Go 负载均衡

🔥🔥🔥热乎的前端面试题(昨天)

控心つcrazy

JavaScript 面试 Vue 前端面试

助力企业网络安全建设,华为云等保合规解决方案值得拥有

路过的憨憨

华为云等保合规方案,助力企业最快30天过等保

科技说

如何利用人工智能的语言模型创造价值和收益

派大星

ChatGPT

跨平台应用开发进阶(四十四)一文走近应用层抓包工具:Charles

No Silver Bullet

应用层 抓包分析 抓包工具 三周年连更

CNStack 云服务&云组件:打造丰富的云原生技术中台生态

阿里巴巴云原生

阿里云 云原生 CNStack

如果有一天当你的Redis 内存满了,该怎么办?

会踢球的程序源

Java redis 后端

机器视觉公司,在玩一局玩不起的游戏

脑极体

CV

华为云等保合规解决方案,助力企业轻松、省心、安全“上云”

秃头也爱科技

【Linux】之【网络】相关的命令及解析[ethtool、nload、nethogs、iftop、iptraf、ifstat]

A-刘晨阳

Linux 网络 三周年连更

2023移动云大会重磅官宣,云改“新三年”强势开局引期待?

ToB行业头条

Mac怎么创建txt文件?如何设置新建txt的快捷键?

互联网搬砖工作者

在华为云构建多云跨云的容灾系统,真的很香

路过的憨憨

华为云等保方案,为企业上云保驾护航

科技说

不愧是Github获赞78.9K的「LeetCode全彩版刷题小册」面面俱到,太全了

采菊东篱下

面试 算法 力扣

阿里巴巴灵魂一问:说说触发HashMap死循环根因

会踢球的程序源

hashmap Java1

一天吃透操作系统八股文

程序员大彬

面试 操作系统

云效AppStack--扫雷亲测

六月的雨在InfoQ

云效 AppStack 云效流水线 Flow 三周年连更

华为云等保方案,轻松满足企业等保合规要求

IT科技苏辞

从初学者角度聊一聊socket到底是什么?

会踢球的程序源

Java 后端 socket

termius使用ssh教程 【XShell的神器Termius】

互联网搬砖工作者

Presto即服务:AWS上的交互式SQL查询_DevOps & 平台工程_Charles Menguy_InfoQ精选文章