写点什么

Presto 即服务:AWS 上的交互式 SQL 查询

  • 2014-02-17
  • 本文字数:1241 字

    阅读完需:约 4 分钟

作为 Facebook 公司的一项可用作在 PB 级规模的数据上执行交互式 SQL 查询的技术, Presto 现在已经迈出了步入主流应用的第一步。大数据创业公司 Qubole 日前发布了与 Amazon Web Services 集成的 Presto 即服务 alpha 版本

这套新系统与目前已经集成的 Hadoop、Hive 以及 Pig,都属于 Qubole 公司不断发展壮大的平台 Qubole Data Service (QDS)中的一部分。由于 Presto 原生集成了 Hive、Hbase 和关系型数据库,因此它的这种特性使得它非常适合这类管理服务。作为 Qubole 公司的联合创始人, Ashish Thusoo Joydeep Sen Sarma 曾创建了 Hive,并且把 HBase 带到了 Facebook,因此对于他们来说,这一步看起来顺理成章。这项服务的一个主要用例就是通过查询 Hive 表以取得存储在 S3 上的数据,这样一来 QDS 的用户就可以很方便地基于这些表执行查询操作了。Qubole 目前的服务都是以 AWS 为中心构建的,原因正如 Ashish 所说,“这是由我们目前的需求决定的”。Qubole 将自己定位为昂贵的数据仓库系统的替代品,就像 Qubole 的工程副总裁 Shrikanth Shankar 所说,“对于那些之前依赖昂贵的商业技术进行快速分析工作的用户来说,Presto 将为他们带来巨大的价值。”

在大数据领域内,Presto 实际上是一项相对较新的技术。Facebook 的这个项目开始于 2012 年秋,并在 2013 年上半年正式上线,最终在 2013 年 11 月完全开源。Presto 背后所使用的执行模式与 Hive 有根本的不同,它没有使用 MapReduce,这一点与其他 SQL 查询引擎(例如 Cloudera Impala UC Berkeley Shark )很像。其中的关键是所有的处理都在内存中完成,正如 Ashish 所说,“Presto 更适合运行在配有更大内存的实例上。”这也是为什么 Presto 能够获得比 Hive 低几个数量级延迟的主要原因之一。但是由于 Stinger 项目给 Hive 12 带来的性能改善,因此 Presto 与 Hive 12 间孰优孰劣目前尚且不明,正如 Ashish 所描述的一样:

Hive 肯定也会变得更快。我们已经进行了一些初步的测试,很快就会在博客中公布测试的结果。

就其可扩展性方面来说,应用在 Facebook 的 300PB 规模的数据仓库系统中的这一事实充分证明了它的可靠性。另外其他一些公司,例如 AirBnb Dropbox ,也都开始采用 Presto,“在我们的绝大多数用例中,它都比 Hive 要快一个数量级”,Dropbox 的线上分析经理 Christopher Gutierrez 如是说。

伴随着 Qubole 这个新服务的发布,Presto 社区将会进一步发展壮大,就连 Siva Narayanan 这样的 Qubole 开发者都在 Presto 群组中表示他们“打算做 Presto 王国中的好市民,并且期待着为 Presto 项目的主干贡献补丁和功能”。凭借着 GitHub 上超过 2000 颗星和 350 次的分支,Presto 项目已经变得比其他类似的并且更早的开源项目(例如 Impala )更为流行。

查看英文原文: Presto 即服务:AWS 上的交互式 SQL 查询


感谢梅雪松对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-02-17 07:332861

评论

发布
暂无评论
发现更多内容

2024年LED显示屏租赁屏市场

Dylan

商业 LED显示屏 全彩LED显示屏 led显示屏厂家 舞台表演

Sam Altman 联手苹果前首席设计官打造 AI 设备;特斯拉将推出无人驾驶出租车丨 RTE 开发者日报 Vol.178

RTE开发者社区

亚马逊店铺引流:海外云手机的利用方法

Ogcloud

云手机 海外云手机 云手机海外版 国外云手机 美国云手机

广州等级保护测评公司一览表2024

行云管家

等保 堡垒机 等级保护 等保测评

云服务器干嘛的?带你掌握云计算的优势

一只扑棱蛾子

云服务器

【荣誉】第七在线出席ToB商业头条行业大会 斩获创新力产品奖

第七在线

人工智能,应该如何测试?(七)大模型客服系统测试

霍格沃兹测试开发学社

企业智能体(Agent)来袭!拥有“无限可能”的数智化AI底座

行云创新

AI 智能体 agent

IT外包服务助推企业产业融通

Ogcloud

IT IT外包 IT外包公司 IT外包服务 IT外包企业

人工智能,应该如何测试?(八)企业级智能客服测试大模型 RAG

霍格沃兹测试开发学社

提升团队工程交付能力,从“看见”工程活动和研发模式开始

阿里巴巴云原生

阿里云 云原生 云效

解锁ETLCloud中Kettle的用法

谷云科技RestCloud

kettle 数据同步 ETL 数据集成

BSN-DID研究--主题二:发证方函数

BSN研习社

区块链 BSN did

日志系统:一条SQL更新语句是如何执行的?

TimeFriends

DACI决策框架,给低效能企业一个机会

填空时光

项目管理 效能提升 效能工具 决策管理

提升团队工程交付能力,从“看见”工程活动和研发模式开始

阿里云云效

阿里云 云原生 云效

我们是如何测试人工智能的(六)推荐系统拆解

测试人

人工智能 软件测试 自动化测试 测试开发

5个为什么要做外贸网站推广的理由

九凌网络

天翼云超大规模高性能云基础底座、“息壤”获国资委权威认可!

编程猫

为什么中小企业普遍选择IT运维外包了?

Ogcloud

IT运维 IT外包 IT外包公司 IT外包服务 IT运维外包

TCL实业盘古实验室发布全域光晕控制等多项创新显示技术

极客天地

人工智能,应该如何测试?(四)模型全生命周期流程与测试图

霍格沃兹测试开发学社

去哪儿完成鸿蒙原生应用Beta版本开发,带来一站式在线旅行体验

最新动态

KaiwuDB 成功入选《2023 ToB 行业影响力价值榜 · 创新力产品榜》

KaiwuDB

数据库

企业级依赖管理: 深入解读 Maven BOM

LightGao

maven 设计模式 架构设计 软件系统 java 架构

做跨境电商,为什么要建独立站

Noah

行云防水堡-打造企业数据安全新防线

行云管家

网络安全 数据安全 防水堡

人工智能,应该如何测试?(六)推荐系统拆解

霍格沃兹测试开发学社

教你如何使用Zig实现Cmpp协议

华为云开发者联盟

云计算 华为云 华为云开发者联盟 华为云短信服务 企业号2024年4月PK榜

Presto即服务:AWS上的交互式SQL查询_DevOps & 平台工程_Charles Menguy_InfoQ精选文章