Agentic AI、具身智能、强化学习框架、端侧大模型……来QCon上海站,感受AI的未来! 了解详情
写点什么

谷歌发布 Hive-BigQuery 开源连接器,加强跨平台数据集成能力

  • 2023-09-01
    北京
  • 本文字数:1175 字

    阅读完需:约 4 分钟

谷歌发布Hive-BigQuery开源连接器,加强跨平台数据集成能力

最近,谷歌宣布正式发布Hive-BigQuery Connector,简化 Apache Hive 和 Google BigQuery 之间的集成和迁移。这个开源连接器是一个 Hive 存储处理程序,它使 Hive 能够与 BigQuery 的存储层进行交互。

 

这个新增选项支持在 Hive 中使用类 SQI 查询语言HiveQL对 BigQuery 进行读写。这样,数据工程师就可以在不移动数据的情况下访问和查询 BigQuery 数据集,而 BigQuery 的用户则可以利用 Hive 的工具、库和框架进行数据处理和分析。谷歌云解决方案架构师Julien Phalip写道:

 

Hive-BigQuery 连接器实现了 Hive StorageHandler API,使 Hive 工作负载可以与 BigQuery 和 BigLake 表集成。所有的计算操作(如聚合和连接)仍然由 Hive 的执行引擎处理,连接器则管理所有与 BigQuery 数据层的交互,而不管底层数据是存储在 BigQuery 本地存储中,还是通过 BigLake 连接存储在云存储桶中。

 

Apache Hive是一个构建在 Hadoop 之上的流行的分布式数据仓库选项,它允许用户在大型数据集上执行查询。BigQuery是谷歌云提供的无服务器数据仓库,支持对海量数据集进行可扩展的查询。为了确保数据的一致性和可靠性,这次发布的开源连接器使用 Hive 的元数据来表示 BigQuery 中存储的表。

 

该连接器支持使用 MapReduce 和 Tez 执行引擎进行查询,在 Hive 中创建和删除 BigQuery 表,以及将 BigQuery 和 BigLake 表与 Hive 表进行连接。它还支持使用 Storage Read API 流和 Apache Arrow 格式从 BigQuery 表中快速读取数据。



图片来源:谷歌数据分析博客

 

根据谷歌云的说法,Hive-BigQuery 连接器可以在以下场景中为企业提供帮助:确保迁移过程中操作的连续性,将 BigQuery 用于需要数据仓库子集的需求,或者保有一个完整的开源软件技术栈。

 

借助BigQuery Migration Service,谷歌提供了BigQuery批处理SQL转换器交互式SQL转换器支持,可以将 Hive 查询转换为 BigQuery 特有的兼容 ANSI 的 SQL 语法。Phalip 解释说:

 

这个新的 Hive-BigQuery 连接器提供了一个额外的选项:你可以保留原来的 HiveQL 方言的查询,并继续在集群上使用 Hive 执行引擎运行这些查询,但让它们访问已迁移到 BigQuery 和 BigLake 表的数据。

 

这不是谷歌为分析不同的数据集并减少数据转换而发布的第一个开源连接器:Cloud Storage Connector实现了 Hadoop Compatible File System(HCFS) API,用于读写 Cloud Storage 中的数据文件,而Apache Spark SQL connector for BigQuery则实现了 Spark SQL Data Source API,将 BigQuery 表读取到 Spark 的数据帧中,并将数据帧写回 BigQuery。

 

Hive-BigQuery 连接器支持 Dataproc 2.0 和 2.1。谷歌还大概介绍了有关分区的一些限制。由于 Hive 和 BigQuery 的分区方式不同,所以该连接器不支持 Hive PARTITIONED BY 子句。但是,开发人员仍然可以使用 BigQuery 支持的时间单位列分区选项和摄入时间分区选项。

 

感兴趣的读者,可以从GitHub上获取该连接器。

 

原文链接:

https://www.infoq.com/news/2023/07/google-hive-bigquery-connector/

2023-09-01 08:006761

评论

发布
暂无评论
发现更多内容

模块四作业

Ryan

架构

毫末智行稳健收官2022“三大战役” 火力全开打响2023“四大战役”

科技大数据

应用级容灾

agnostic

DR

作为QA,我们要如何思考?

QE_LAB

测试思维

自动驾驶技术平台分享:百度Apollo开放平台8.0再升级,更简单,更便捷,更高效

石臻臻的杂货铺

自动驾驶

ImageView(图像视图)

芯动大师

imageView android布局 图像视图

流量路由技术解析

阿里巴巴云原生

阿里云 云原生 流量路由

替换目标中覆盖的文件如何恢复?EasyRecovery软件2023特色

茶色酒

EasyRecovery EasyRecovery15

Ikigai: 享受生命的意义

俞凡

思维模型 Ikigai

新同事卷的要死 , 天天加班,动不动就手写spring , 直呼崩溃

程序知音

Java java面试 后端技术 春招 Java面试八股文

airserver2023最新版免费使用教程

茶色酒

AirServer2023

架构实战营模块 4 作业

刘博

2023-01-08:小红定义一个仅有r、e、d三种字符的字符串中, 如果仅有一个长度不小于2的回文子串,那么这个字符串定义为“好串“。 给定一个正整数n,输出长度为n的好串有多少个。 结果对10^9

福大大架构师每日一题

算法 rust Solidity 福大大

流光绘影开年大秀顶级艺术团队×中科极光“真激光”精彩呈现

硬科技星球

接口限流算法:漏桶算法&令牌桶算法&redis限流

懒时小窝

程序员为什么下班后只关显示器从不关电脑

风铃架构日知录

Java 程序员 后端 码农 IT

Spring 响应式编程,真香!!!

老周聊架构

响应式编程

SpringBoot 框架中的 Tomcat 为什么一定要替换掉?

风铃架构日知录

Java spring 程序员 后端 springboot

数据湖(十七):Flink与Iceberg整合DataStream API操作

Lansonli

数据湖

单体的 TienChin 和微服务的 TienChin 有何异同?

江南一点雨

微服务

2023年玩兔年小游戏《兔兔保卫萝卜战》赢新年祝福「钱兔无量」

非喵鱼

Java swing 小游戏 新年祝福

【Redis 技术探索】「数据迁移实战」手把手教你如何实现在线 + 离线模式进行迁移Redis数据实战指南(离线同步数据)

码界西柚

redis 1月日更 RedisShake Redis-shake

模块一作业(架构实战训练营)

Justin

架构实战营

微博评论的高性能高可用计算架构

闲人Eric

#架构实战营

一文读懂什么是 Web3 架构

风铃架构日知录

编程 程序员 后端 码农 web3

《零基础学 Python(2023 版)》学习笔记 Day1

IT蜗壳-Tango

对话开发者:Serverless 落地的困境与破局

阿里巴巴云原生

阿里云 Serverless 云原生

年终盘点一 | 云原生的 2022 年:降本提效、全面 Serverless 化

阿里巴巴云原生

阿里云 Serverless 云原生

13 个前端可能用得上的 CSS技巧

devpoint

CSS ios 前端开发 scss

三年成功实现7次OTA升级!MANA六大闭环成毫末产品迭代强大助力

科技大数据

谷歌发布Hive-BigQuery开源连接器,加强跨平台数据集成能力_数据库_Renato Losio_InfoQ精选文章