2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

谷歌发布 Hive-BigQuery 开源连接器,加强跨平台数据集成能力

  • 2023-09-01
    北京
  • 本文字数:1175 字

    阅读完需:约 4 分钟

谷歌发布Hive-BigQuery开源连接器,加强跨平台数据集成能力

最近,谷歌宣布正式发布Hive-BigQuery Connector,简化 Apache Hive 和 Google BigQuery 之间的集成和迁移。这个开源连接器是一个 Hive 存储处理程序,它使 Hive 能够与 BigQuery 的存储层进行交互。

 

这个新增选项支持在 Hive 中使用类 SQI 查询语言HiveQL对 BigQuery 进行读写。这样,数据工程师就可以在不移动数据的情况下访问和查询 BigQuery 数据集,而 BigQuery 的用户则可以利用 Hive 的工具、库和框架进行数据处理和分析。谷歌云解决方案架构师Julien Phalip写道:

 

Hive-BigQuery 连接器实现了 Hive StorageHandler API,使 Hive 工作负载可以与 BigQuery 和 BigLake 表集成。所有的计算操作(如聚合和连接)仍然由 Hive 的执行引擎处理,连接器则管理所有与 BigQuery 数据层的交互,而不管底层数据是存储在 BigQuery 本地存储中,还是通过 BigLake 连接存储在云存储桶中。

 

Apache Hive是一个构建在 Hadoop 之上的流行的分布式数据仓库选项,它允许用户在大型数据集上执行查询。BigQuery是谷歌云提供的无服务器数据仓库,支持对海量数据集进行可扩展的查询。为了确保数据的一致性和可靠性,这次发布的开源连接器使用 Hive 的元数据来表示 BigQuery 中存储的表。

 

该连接器支持使用 MapReduce 和 Tez 执行引擎进行查询,在 Hive 中创建和删除 BigQuery 表,以及将 BigQuery 和 BigLake 表与 Hive 表进行连接。它还支持使用 Storage Read API 流和 Apache Arrow 格式从 BigQuery 表中快速读取数据。



图片来源:谷歌数据分析博客

 

根据谷歌云的说法,Hive-BigQuery 连接器可以在以下场景中为企业提供帮助:确保迁移过程中操作的连续性,将 BigQuery 用于需要数据仓库子集的需求,或者保有一个完整的开源软件技术栈。

 

借助BigQuery Migration Service,谷歌提供了BigQuery批处理SQL转换器交互式SQL转换器支持,可以将 Hive 查询转换为 BigQuery 特有的兼容 ANSI 的 SQL 语法。Phalip 解释说:

 

这个新的 Hive-BigQuery 连接器提供了一个额外的选项:你可以保留原来的 HiveQL 方言的查询,并继续在集群上使用 Hive 执行引擎运行这些查询,但让它们访问已迁移到 BigQuery 和 BigLake 表的数据。

 

这不是谷歌为分析不同的数据集并减少数据转换而发布的第一个开源连接器:Cloud Storage Connector实现了 Hadoop Compatible File System(HCFS) API,用于读写 Cloud Storage 中的数据文件,而Apache Spark SQL connector for BigQuery则实现了 Spark SQL Data Source API,将 BigQuery 表读取到 Spark 的数据帧中,并将数据帧写回 BigQuery。

 

Hive-BigQuery 连接器支持 Dataproc 2.0 和 2.1。谷歌还大概介绍了有关分区的一些限制。由于 Hive 和 BigQuery 的分区方式不同,所以该连接器不支持 Hive PARTITIONED BY 子句。但是,开发人员仍然可以使用 BigQuery 支持的时间单位列分区选项和摄入时间分区选项。

 

感兴趣的读者,可以从GitHub上获取该连接器。

 

原文链接:

https://www.infoq.com/news/2023/07/google-hive-bigquery-connector/

2023-09-01 08:006815

评论

发布
暂无评论
发现更多内容

Final Draft 13 for Mac激活版 剧本写作软件

小玖_苹果Mac软件

中化信息与枫清科技深化合作:共探“AI+”产业新生态

Fabarta

数智化转型 #大模型

“息 壤” 升 级 !

天翼云开发者社区

云计算 生态大会

深入解析 StarRocks 物化视图:全方位的查询改写机制

StarRocks

Native Instruments Maschine for Mac(全球最全面的采样器)v3.0.1激活版

小玖_苹果Mac软件

ON1 Photo RAW 2025 .1 for Mac(照片编辑器)

小玖_苹果Mac软件

MouseBoost PRO for Mac 鼠标右键助手专业版下载

小玖_苹果Mac软件

2024冬季FORCE大会,火山引擎边缘云全面展示边缘云 + AI 产品技术方案

火山引擎边缘云

机器人 火山引擎 AI 大底座 具身智能 边缘智能

拦截烂SQL,解读GaussDB(DWS)查询过滤器过滤规则原理

华为云开发者联盟

数据库 GaussDB(DWS) #SQL

AI视频无损放大Topaz Video AI for Mac v6.0.0激活版

小玖_苹果Mac软件

复旦大学与华为共建鲲鹏昇腾科教创新孵化中心 着力科研创新与人才培养

极客天地

博客写作软件 MarsEdit mac v5.1.4激活版

小玖_苹果Mac软件

让AI碰撞!“天翼云息壤杯”高校AI大赛江苏赛区交流会热力开场!

天翼云开发者社区

云计算 AI

怎么制作甘特图?10个甘特图模板案例盘点!

职场工具箱

项目管理 甘特图 办公软件 绘图软件 甘特图软件

AI-Native的路要怎么走?一群技术“老炮儿”指明了方向

Alter

京东商品详情数据接口丨京东API接口指南

tbapi

京东API接口 京东商品详情接口

Axure RP 9 for Mac(交互原型设计软件)v9.0.0.3746中文激活版

小玖_苹果Mac软件

FabFilter Total Bundle 2024 for Mac(音频插件合集)v2024.12.16直装激活版

小玖_苹果Mac软件

iBarcoder v3.16.0免激活版 专业的条形码生成器

小玖_苹果Mac软件

QLab Pro for Mac 激活版 音频编辑处理工具

小玖_苹果Mac软件

送你一瓶好运喷雾,2024BAT大厂最新Java热门面试题及答案总结

Summer

Java 程序员 面试 架构师 大厂

科技是把双刃剑,巧用技术改变财务预测

智达方通

企业管理 科技创新 全面预算管理

如何运用获得京东商品详情API接口搬运商品到自己的电商平台?(一篇文章全搞定)

科普小能手

数据挖掘 淘宝 电商 API 接口 API 测试

Lightroom Classic 2025 for Mac(LRC2025)v14.1.1中文激活版

小玖_苹果Mac软件

GPT 论文作者 Alec Radford 离开 OpenAI,曾参与开发 Whisper;闪极 AI 拍照眼镜支持全天候记录

声网

谷歌发布Hive-BigQuery开源连接器,加强跨平台数据集成能力_数据库_Renato Losio_InfoQ精选文章