写点什么

谷歌发布 Hive-BigQuery 开源连接器,加强跨平台数据集成能力

  • 2023-09-01
    北京
  • 本文字数:1175 字

    阅读完需:约 4 分钟

谷歌发布Hive-BigQuery开源连接器,加强跨平台数据集成能力

最近,谷歌宣布正式发布Hive-BigQuery Connector,简化 Apache Hive 和 Google BigQuery 之间的集成和迁移。这个开源连接器是一个 Hive 存储处理程序,它使 Hive 能够与 BigQuery 的存储层进行交互。

 

这个新增选项支持在 Hive 中使用类 SQI 查询语言HiveQL对 BigQuery 进行读写。这样,数据工程师就可以在不移动数据的情况下访问和查询 BigQuery 数据集,而 BigQuery 的用户则可以利用 Hive 的工具、库和框架进行数据处理和分析。谷歌云解决方案架构师Julien Phalip写道:

 

Hive-BigQuery 连接器实现了 Hive StorageHandler API,使 Hive 工作负载可以与 BigQuery 和 BigLake 表集成。所有的计算操作(如聚合和连接)仍然由 Hive 的执行引擎处理,连接器则管理所有与 BigQuery 数据层的交互,而不管底层数据是存储在 BigQuery 本地存储中,还是通过 BigLake 连接存储在云存储桶中。

 

Apache Hive是一个构建在 Hadoop 之上的流行的分布式数据仓库选项,它允许用户在大型数据集上执行查询。BigQuery是谷歌云提供的无服务器数据仓库,支持对海量数据集进行可扩展的查询。为了确保数据的一致性和可靠性,这次发布的开源连接器使用 Hive 的元数据来表示 BigQuery 中存储的表。

 

该连接器支持使用 MapReduce 和 Tez 执行引擎进行查询,在 Hive 中创建和删除 BigQuery 表,以及将 BigQuery 和 BigLake 表与 Hive 表进行连接。它还支持使用 Storage Read API 流和 Apache Arrow 格式从 BigQuery 表中快速读取数据。



图片来源:谷歌数据分析博客

 

根据谷歌云的说法,Hive-BigQuery 连接器可以在以下场景中为企业提供帮助:确保迁移过程中操作的连续性,将 BigQuery 用于需要数据仓库子集的需求,或者保有一个完整的开源软件技术栈。

 

借助BigQuery Migration Service,谷歌提供了BigQuery批处理SQL转换器交互式SQL转换器支持,可以将 Hive 查询转换为 BigQuery 特有的兼容 ANSI 的 SQL 语法。Phalip 解释说:

 

这个新的 Hive-BigQuery 连接器提供了一个额外的选项:你可以保留原来的 HiveQL 方言的查询,并继续在集群上使用 Hive 执行引擎运行这些查询,但让它们访问已迁移到 BigQuery 和 BigLake 表的数据。

 

这不是谷歌为分析不同的数据集并减少数据转换而发布的第一个开源连接器:Cloud Storage Connector实现了 Hadoop Compatible File System(HCFS) API,用于读写 Cloud Storage 中的数据文件,而Apache Spark SQL connector for BigQuery则实现了 Spark SQL Data Source API,将 BigQuery 表读取到 Spark 的数据帧中,并将数据帧写回 BigQuery。

 

Hive-BigQuery 连接器支持 Dataproc 2.0 和 2.1。谷歌还大概介绍了有关分区的一些限制。由于 Hive 和 BigQuery 的分区方式不同,所以该连接器不支持 Hive PARTITIONED BY 子句。但是,开发人员仍然可以使用 BigQuery 支持的时间单位列分区选项和摄入时间分区选项。

 

感兴趣的读者,可以从GitHub上获取该连接器。

 

原文链接:

https://www.infoq.com/news/2023/07/google-hive-bigquery-connector/

2023-09-01 08:005378

评论

发布
暂无评论
发现更多内容

重磅官宣:Nacos2.0发布,性能提升10倍

xcbeyond

Java 微服务 nacos 4月日更

Linux grep 命令

一个大红包

4月日更

starforce源码解读一:关键字partial

风翱

C# 源码阅读 4月日更 游戏框架

区块链的环保实验,助全球提高垃圾回收

CECBC

环保

作业1--微信的业务架构及学生管理系统

大可

架构实战营--模块一

永佳

架构实战营

架构实战营-模块一作业

Sun

如何做Nginx安全日志分析可视化

运维研习社

nginx 4月日更 waf

架构实战营 模块一作业

netspecial

架构实战营

机器学习(二):理解线性回归与梯度下降并做简单预测

caiyongji

机器学习

Java最强规则引擎-ice是如何炼成的?

waitmoon

规则引擎使用 规则引擎 流程引擎

高承实:绘一幅区块链社会画像

CECBC

区块链

go每日一库 [go-rate] 速率限制器

happlyfox

学习 Go 语言 4月日更

怎么画出专业的架构图?

秋天

架构 架构师

脑机接口简史——假如这篇推送是你靠意念打开的

脑极体

VUE2,基于vue-cli搭建创建vue项目

Chalk

Vue 大前端 4月日更

极客架构module 1 作业

Geek_649372

架构实战营

Wireshark数据包分析学习笔记Day25

穿过生命散发芬芳

Wireshark 数据包分析 4月日更

PCB如何拼版

不脱发的程序猿

嵌入式 电路设计 硬件设计 4月日更 PCB打样

基于二叉树实现Map

Silently9527

Java 二叉树 数据结构与算法

编程好习惯之理清函数参数

顿晓

编程好习惯 4月日更

什么是架构?怎么来理解?

秋天

架构 架构师

踩坑 MySQL 索引,看看你真的会用么?

架构精进之路

MySQL 4月日更

机器学习和大数据的区别和联系

大数据技术指南

机器学习 大数据 4月日更

架构实战营——作业一:微信架构及学生管理架构

开拓纪

架构实战营 作业一

为什么数据库字段要使用NOT NULL?

艾小仙

「架构实战营」课堂作业-G20210698010384

张亮

浅聊函数防抖与节流

程序员海军

JavaScript 大前端 防抖 节流

一文读懂区块链领域最新发展方向 NFT经济将成未来发展方向

CECBC

艺术品

脑机接口简史——假如这篇推送是你靠意念打开的

白洞计划

Scrum Patterns:每日Scrum(译)

Bruce Talk

敏捷开发 译文 Agile Scrum Patterns

  • 扫码添加小助手
    领取最新资料包
谷歌发布Hive-BigQuery开源连接器,加强跨平台数据集成能力_数据库_Renato Losio_InfoQ精选文章