AICon 深圳站 Keynote 嘉宾官宣!共探AI价值转化的实践路径 了解详情
写点什么

谷歌发布 Hive-BigQuery 开源连接器,加强跨平台数据集成能力

  • 2023-09-01
    北京
  • 本文字数:1175 字

    阅读完需:约 4 分钟

谷歌发布Hive-BigQuery开源连接器,加强跨平台数据集成能力

最近,谷歌宣布正式发布Hive-BigQuery Connector,简化 Apache Hive 和 Google BigQuery 之间的集成和迁移。这个开源连接器是一个 Hive 存储处理程序,它使 Hive 能够与 BigQuery 的存储层进行交互。

 

这个新增选项支持在 Hive 中使用类 SQI 查询语言HiveQL对 BigQuery 进行读写。这样,数据工程师就可以在不移动数据的情况下访问和查询 BigQuery 数据集,而 BigQuery 的用户则可以利用 Hive 的工具、库和框架进行数据处理和分析。谷歌云解决方案架构师Julien Phalip写道:

 

Hive-BigQuery 连接器实现了 Hive StorageHandler API,使 Hive 工作负载可以与 BigQuery 和 BigLake 表集成。所有的计算操作(如聚合和连接)仍然由 Hive 的执行引擎处理,连接器则管理所有与 BigQuery 数据层的交互,而不管底层数据是存储在 BigQuery 本地存储中,还是通过 BigLake 连接存储在云存储桶中。

 

Apache Hive是一个构建在 Hadoop 之上的流行的分布式数据仓库选项,它允许用户在大型数据集上执行查询。BigQuery是谷歌云提供的无服务器数据仓库,支持对海量数据集进行可扩展的查询。为了确保数据的一致性和可靠性,这次发布的开源连接器使用 Hive 的元数据来表示 BigQuery 中存储的表。

 

该连接器支持使用 MapReduce 和 Tez 执行引擎进行查询,在 Hive 中创建和删除 BigQuery 表,以及将 BigQuery 和 BigLake 表与 Hive 表进行连接。它还支持使用 Storage Read API 流和 Apache Arrow 格式从 BigQuery 表中快速读取数据。



图片来源:谷歌数据分析博客

 

根据谷歌云的说法,Hive-BigQuery 连接器可以在以下场景中为企业提供帮助:确保迁移过程中操作的连续性,将 BigQuery 用于需要数据仓库子集的需求,或者保有一个完整的开源软件技术栈。

 

借助BigQuery Migration Service,谷歌提供了BigQuery批处理SQL转换器交互式SQL转换器支持,可以将 Hive 查询转换为 BigQuery 特有的兼容 ANSI 的 SQL 语法。Phalip 解释说:

 

这个新的 Hive-BigQuery 连接器提供了一个额外的选项:你可以保留原来的 HiveQL 方言的查询,并继续在集群上使用 Hive 执行引擎运行这些查询,但让它们访问已迁移到 BigQuery 和 BigLake 表的数据。

 

这不是谷歌为分析不同的数据集并减少数据转换而发布的第一个开源连接器:Cloud Storage Connector实现了 Hadoop Compatible File System(HCFS) API,用于读写 Cloud Storage 中的数据文件,而Apache Spark SQL connector for BigQuery则实现了 Spark SQL Data Source API,将 BigQuery 表读取到 Spark 的数据帧中,并将数据帧写回 BigQuery。

 

Hive-BigQuery 连接器支持 Dataproc 2.0 和 2.1。谷歌还大概介绍了有关分区的一些限制。由于 Hive 和 BigQuery 的分区方式不同,所以该连接器不支持 Hive PARTITIONED BY 子句。但是,开发人员仍然可以使用 BigQuery 支持的时间单位列分区选项和摄入时间分区选项。

 

感兴趣的读者,可以从GitHub上获取该连接器。

 

原文链接:

https://www.infoq.com/news/2023/07/google-hive-bigquery-connector/

2023-09-01 08:006710

评论

发布
暂无评论
发现更多内容

React Context源码是怎么实现的呢

flyzz177

React

一文带你全面了解什么是颠覆时代的Web3.0未来互联网

echeverra

Web3.0

太强了!阿里p8大佬干了半个月总结的《Alibaba分布式系统速成笔记》正式开源

Geek_0c76c3

Java 数据库 开源 程序员 架构

【荣耀帐号服务】手把手教你快速Android应用接入

荣耀开发者服务平台

开发者 服务 安卓 应用 honor

java培训学习应该注意什么?

小谷哥

react hook 源码完全解读

flyzz177

React

N1盒子openwrt+dogcom实现大学校园网的自动登录开启路由

知识浅谈

9月月更

从0到1带你搭建一个vue3.0项目(vue-cli脚手架版)

言程序

前端 vue3.0 9月月更

隐私计算唯一代表厂商!洞见科技入选《爱分析·数据智能厂商全景报告》

洞见科技

前端线下培训学习适合哪些人群

小谷哥

大数据开发培训周期和方法

小谷哥

深圳大数据培训哪家教的好

小谷哥

谷歌也开始裁员!谷歌CEO说出理由让人惊叹

雨果

裁员 谷歌 互联网裁员

web前端培训机构怎么选择比较好呢

小谷哥

阿里顶配版 Spring 全家桶高级笔记+学习路线图+硬核资料库,跪着啃完了。。。

Geek_0c76c3

Java 数据库 开源 程序员 架构

《DevOps工具链的国产化之道》直播报名开始啦!

嘉为蓝鲸

DevOps IT 工具链 研发

详解JS中 call 方法的实现

华为云开发者联盟

Java 前端 企业号九月金秋榜

基于 Apache Hudi 极致查询优化的探索实践

华为云开发者联盟

大数据 后端 华为云 企业号九月金秋榜

HMS Core上新啦!

HarmonyOS SDK

HMS Core

一台“厉害”的打印机

华为云开发者联盟

云计算 后端 物联网 企业号九月金秋榜

故障转移和恢复

源字节1号

软件开发 后端开发

Java面试题大全(整理版)1000+面试题附答案详解最全面看完稳了

钟奕礼

Java 面试 java; Java 面试题

如何通过C#/VB.NET代码将Excel工作表拆分为单独的文件

在下毛毛雨

C# .net Excel 拆分

Python基础(五) | 函数及面向过程编程详解

timerring

Python Monad 9月月更

开发者有话说|我的前端开发感悟

言程序

个人成长

交付有价值的产品,先澄清用户故事吧!

敏捷开发

产品 项目管理 敏捷开发 软件开发 用户故事

美团 3 面 (Java 后台):NIO+BIO+Zookeeper+ 线程池 +Redis+kafka

钟奕礼

Java 面试 java;

100 行代码在微信公众号里集成地图搜索功能

汪子熙

html 微信 web开发 微信开发 9月月更

牛客网扫地僧开源出来的《Java面试无敌流笔记》,Github上线两天就爆火

Geek_0c76c3

Java 数据库 开源 程序员 架构

开发者有话说|我的前端开发感悟

言程序

个人成长 程序人生

Flowable 流程部署与删除

江南一点雨

Java springboot flowable

谷歌发布Hive-BigQuery开源连接器,加强跨平台数据集成能力_数据库_Renato Losio_InfoQ精选文章