9月7日-8日,相约 2023 腾讯全球数字生态大会!聚焦产业未来发展新趋势! 了解详情
写点什么

PayPal 的 Gimel 分析平台提供统一的数据 API 和 GSQL

  • 2018-04-27
  • 本文字数:1407 字

    阅读完需:约 5 分钟

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

PayPal ,数据工程师、分析师以及数据科学家会使用各种数据源、计算引擎、 语言和执行模型(流、批处理、交互式)。这样的话,会导致工程师会花费大量的时间管理不同的数据源,进而影响他们的产品的上市时间。

PayPal 数据团队开发了名为 Gimel 的全新分析平台,它会使用一个数据 API 和 SQL 访问任意数据存储,并且提供了一个中心化的数据目录。

来自 PayPal 的 Romit Mehta 和 Deepak Chandramouli 在最近的 QCon.ai 会议介绍了Gimel 数据分析平台以及它如何用于商业化数据访问。他们讨论了Gimel 的组件:计算平台(Compute Platform)、数据API(Data API)、PCatalog、 GSQL 和 Notebooks,还宣布了该平台的开源版本。

InfoQ 与 Mehta 和 Chandramouli 讨论了 Gimel 数据平台以及它对安全、数据版本化的支持,了解了它未来的路线图。

InfoQ:为事务性和分析用例来管理数据目录(PCatalog)会有什么差异吗?

Mehta & Chandramouli:目前的 Gimel API 和 SQL 实现专注于分析平台。不管存储类型是 Kafka、NoSQL、基于关系型的还是基于文档型的,数据 API 都是相同的,SQL 提供了语言的抽象。在 PayPal,我们看到在线 / 实时系统都有类似的抽象层的需求。我们目前正在为在线系统提供类似的层,这些系统需要亚秒(sub-second)级的响应。

InfoQ:在 Gimel 平台中,你们是如何处理数据访问的安全性和访问控制的需求的呢?

Mehta & Chandramouli:因为所有的查询都是以登录用户的身份提交到底层系统的,而且所有的查询最终都由这些底层系统来执行,所以已有的安全策略和控制都能得以保持。

除此之外,通过日志系统,Gimel 会为每一个查询执行保留日志,其中包括查询本身,不管是否有数据下载至本地均是如此,未来,如果访问机密数据的话,还会为查询添加标签。

在 PayPal,Gimel 还遵循 Ranger 策略并与 Kerberized 集群紧密协作。

InfoQ:你们是如何管理数据存储的版本化的问题呢?

Mehta & Chandramouli:我们与 PayPal 的存储管理员协作,确保我们的 API 能够充分支持基础设备团队的所有存储版本。另外,如果存储团队需要新的设施的话,我们会在 API 中同样将它们纳入进来,这样所有的客户端就能透明地得到该功能的实现。也就是说,不管何时发生版本升级,在大多数场景下客户端都不需要更改他们的代码。

InfoQ:你们能介绍一下 GSQL 查询语言吗,它与其他的框架有什么差异吗,比如 Spark SQL 或 Neo4j’s Cypher

Mehta & Chandramouli:现在,GSQL 是一个轻量级的实现,它会拦截用户 SQL,在背后会为 Gimel 数据集(Datasets)生成对应的数据 API 代码,然后采用与 Spark SQL 拦截器相同的方式进行传递。长期来看,我们会推动 SQL 的一些优化,它会从多种存储类型混合 / 连接(blend/join)数据,也就是连接 Kafka、Hive、HBase,并将结果写入到 Elastic 中。

在路线图方面,除了增值特性和更新之外,团队还为 Gimel 规划了下面的功能:

  • 查询优化
  • 开源 PCatalog(包括元数据服务、发现服务、目录 UI)
  • 添加对 Python 的支持;目前支持 Scala
  • 开源添加到 Jupyter & Livy 中的特性

如果你想要学习 Gimel 平台的更多知识,或者关于它的特性有什么问题的话,可以参考文档 Slack Channel 用户论坛开发者论坛。你也可以按照这些指导,抢先尝试一下Gimel 的功能。

查看英文原文 PayPal’s Gimel Analytics Platform Provides Unified Data API and GSQL

活动推荐:

2023年9月3-5日,「QCon全球软件开发大会·北京站」 将在北京•富力万丽酒店举办。此次大会以「启航·AIGC软件工程变革」为主题,策划了大前端融合提效、大模型应用落地、面向 AI 的存储、AIGC 浪潮下的研发效能提升、LLMOps、异构算力、微服务架构治理、业务安全技术、构建未来软件的编程语言、FinOps 等近30个精彩专题。咨询购票可联系票务经理 18514549229(微信同手机号)。

2018-04-27 19:001404

评论

发布
暂无评论
发现更多内容

2020年4月北京BGP机房网络质量评测报告

博睿数据

运维 服务器 机房 数据中心 评测

如何参与开源项目

郭旭东

GitHub 开源

DDD 实践手册(番外篇: 事件风暴-实践)

Joshua

领域驱动设计 DDD 事件风暴 事件驱动 Event Storming

系统服务构建-BFF 助力前后端分离

图南日晟

php 微服务 BFF

工厂模式——这一篇真够了

大头星

Java 架构 面试 设计模式 工厂模式

乙己说:LFU实现思路整理

再见小飞侠

缓存 LeetCode

写给管理者的睡前故事

石云升

读书笔记 故事 管理者

【写作群星榜】本周写作平台优秀作者&文章排名

InfoQ写作社区官方

写作平台 排行榜 热门活动

一文搞懂RSA算法

somenzz

Java 简介

编号94530

Java jdk java简介 jdk8

真香!谷歌终与美国国防部合作,签署百万美金云服务合同

神经星星

云计算 互联网巨头 互联网 谷歌Google

系统化服务构建-调用链管理

图南日晟

微服务 全链路监控 链路追踪

k8s上运行我们的springboot服务之——上传服务到docker私服

柠檬

Docker springboot

H2 的全文检索功能

Page

全文检索 lucene H2 内存数据库

unittest框架

Flychen

Python 自动化测试 unittest

奈学教育分享:Hadoop分布式系统HDFS工作原理

奈学教育

hadoop hdfs 分布式

职场提问的“唐太宗”原则

大伟

投机者

Neco.W

投机 口罩 头盔 投机者

【有奖调研】大数据与人工智能从业者有奖需求用研

Apache Flink

大数据 flink 流计算 实时计算

k8s上运行我们的springboot服务之——k8s 1.16.0安装

柠檬

k8s

k8s上运行我们的springboot服务之——在linux安装docker并搭建docker私服

柠檬

Docker k8s

现代生活对我们大脑的危害

董一凡

生活质量

Android | Tangram动态页面之路(七)硬核的Virtualview

哈利迪

android

Jenkins:批量自动将 Maven 类型 Job 迁移到自由风格类型

donghui

jenkins

露营之美,在乎山水之间也

李冬梅

北大学子手写实现《统计学习方法》书中全部算法!

GitHubDaily

人工智能 GitHub 学习 程序员

1分钱秒杀!疫情季,如何为孩子的升学保驾护航?

极客编

【Howe 学 JAVA】断点续传原理精析及简单实现

Howe

Java 断点续传

自我革新最难的是革自己的命

史方远

职场 成长

JVM源码分析之堆内存的初始化

猿灯塔

G-P-M 调度模型深度解析之手撸一个高性能 goroutine 池

潘建锋

并发编程 协程 Go 语言

  • 扫码添加小助手
    领取最新资料包
PayPal的Gimel分析平台提供统一的数据API和GSQL_大数据_Srini Penchikala_InfoQ精选文章