2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

谷歌发布 Hive-BigQuery 开源连接器,加强跨平台数据集成能力

  • 2023-09-01
    北京
  • 本文字数:1175 字

    阅读完需:约 4 分钟

谷歌发布Hive-BigQuery开源连接器,加强跨平台数据集成能力

最近,谷歌宣布正式发布Hive-BigQuery Connector,简化 Apache Hive 和 Google BigQuery 之间的集成和迁移。这个开源连接器是一个 Hive 存储处理程序,它使 Hive 能够与 BigQuery 的存储层进行交互。

 

这个新增选项支持在 Hive 中使用类 SQI 查询语言HiveQL对 BigQuery 进行读写。这样,数据工程师就可以在不移动数据的情况下访问和查询 BigQuery 数据集,而 BigQuery 的用户则可以利用 Hive 的工具、库和框架进行数据处理和分析。谷歌云解决方案架构师Julien Phalip写道:

 

Hive-BigQuery 连接器实现了 Hive StorageHandler API,使 Hive 工作负载可以与 BigQuery 和 BigLake 表集成。所有的计算操作(如聚合和连接)仍然由 Hive 的执行引擎处理,连接器则管理所有与 BigQuery 数据层的交互,而不管底层数据是存储在 BigQuery 本地存储中,还是通过 BigLake 连接存储在云存储桶中。

 

Apache Hive是一个构建在 Hadoop 之上的流行的分布式数据仓库选项,它允许用户在大型数据集上执行查询。BigQuery是谷歌云提供的无服务器数据仓库,支持对海量数据集进行可扩展的查询。为了确保数据的一致性和可靠性,这次发布的开源连接器使用 Hive 的元数据来表示 BigQuery 中存储的表。

 

该连接器支持使用 MapReduce 和 Tez 执行引擎进行查询,在 Hive 中创建和删除 BigQuery 表,以及将 BigQuery 和 BigLake 表与 Hive 表进行连接。它还支持使用 Storage Read API 流和 Apache Arrow 格式从 BigQuery 表中快速读取数据。



图片来源:谷歌数据分析博客

 

根据谷歌云的说法,Hive-BigQuery 连接器可以在以下场景中为企业提供帮助:确保迁移过程中操作的连续性,将 BigQuery 用于需要数据仓库子集的需求,或者保有一个完整的开源软件技术栈。

 

借助BigQuery Migration Service,谷歌提供了BigQuery批处理SQL转换器交互式SQL转换器支持,可以将 Hive 查询转换为 BigQuery 特有的兼容 ANSI 的 SQL 语法。Phalip 解释说:

 

这个新的 Hive-BigQuery 连接器提供了一个额外的选项:你可以保留原来的 HiveQL 方言的查询,并继续在集群上使用 Hive 执行引擎运行这些查询,但让它们访问已迁移到 BigQuery 和 BigLake 表的数据。

 

这不是谷歌为分析不同的数据集并减少数据转换而发布的第一个开源连接器:Cloud Storage Connector实现了 Hadoop Compatible File System(HCFS) API,用于读写 Cloud Storage 中的数据文件,而Apache Spark SQL connector for BigQuery则实现了 Spark SQL Data Source API,将 BigQuery 表读取到 Spark 的数据帧中,并将数据帧写回 BigQuery。

 

Hive-BigQuery 连接器支持 Dataproc 2.0 和 2.1。谷歌还大概介绍了有关分区的一些限制。由于 Hive 和 BigQuery 的分区方式不同,所以该连接器不支持 Hive PARTITIONED BY 子句。但是,开发人员仍然可以使用 BigQuery 支持的时间单位列分区选项和摄入时间分区选项。

 

感兴趣的读者,可以从GitHub上获取该连接器。

 

原文链接:

https://www.infoq.com/news/2023/07/google-hive-bigquery-connector/

2023-09-01 08:006855

评论

发布
暂无评论
发现更多内容

配电 二次控制回路经验总结(3)

万里无云万里天

工业 工厂运维

数据湖与数据仓库的未来之争

qife122

数据湖 数据分析

NextAuth.js v5迁移指南与实战示例

qife122

迁移指南 NextAuth.js

【AI编程】让Codebuddy改写《浪浪山小妖怪》,结果写出了打工人血泪史

卷福同学

基于AI的课程内容生成系统技术解析

qife122

系统架构 生成式AI

配电 二次控制回路经验总结(2)

万里无云万里天

工业 工厂运维

可定制NLP工具包spaCy与LLM集成技术解析

qife122

自然语言处理 开发者工具

工业仪表 过程仪表经验总结(1)

万里无云万里天

工业 工厂运维

Jimmer国产革命性ORM,平替Hibernate/Mybatis

Marvin

Java hibernate mybatis ORM jimmer

GPT-5技术解析:多版本模型与软件生成能力

qife122

人工智能 代码生成

机器学习公平性研究进展

qife122

人工智能 机器学习

小屏幕大影响:为功能手机开发Web应用的被遗忘艺术

qife122

移动开发 功能手机

性能优化之母:为什么说“方法内联”是编译器优化中最关键的一步棋?

poemyang

编译原理 Java虚拟机 JIT编译器 #java

大语言模型与结构化NLP管道集成方案

qife122

自然语言处理 机器学习

java: 无法访问org.springframework.context.ConfigurableApplicationContext

刘大猫

人工智能 数据挖掘 算法 数据分析 大模型

什么是真正的Monorepo?深入解析单一代码仓库的利与弊

qife122

版本控制 软件开发

配电 高压电工经验总结(1)

万里无云万里天

工业 工厂运维

Intigriti Bug Bytes

qife122

漏洞挖掘 漏洞赏金

2025 WAIC探展合合信息展台:AI鉴伪技术洞察“看不见”的伪造痕迹

猫头虎

人工智能 OCR OCR识别 ai鉴伪

网站卡顿被攻击?EdgeOne 十分钟接入指南:安全加速一体化落地实战

六月的雨在InfoQ

CodeBuddy首席试玩官 CodeBuddyIDE AIIDE 边缘安全加速平台 EO

专业认证总结 对讲机经验总结(1)

万里无云万里天

工厂运维

在MS Office文档属性中隐藏Payload的技术解析

qife122

渗透测试 宏代码

深度Ritz方法的全面误差分析

qife122

深度学习 偏微分方程

2012年9月安全公告网络研讨会问答与幻灯片集锦

qife122

Visual Studio 安全公告

语音情感分析技术解析

qife122

语音分析 实时推理

使用spaCy检测编程语言的NLP技术解析

qife122

自然语言处理 编程语言检测

京东商品列表API秘籍!轻松获取商品列表数据

tbapi

京东API 京东商品列表API 京东数据采集 京东数据分析

企业在黑龙江做二级等保测评,一般要准备哪些材料?

等保测评

工业仪表 过程仪表经验总结(2)

万里无云万里天

工业 工厂运维

40岁程序员同事被撸下技术Leader后,我们去灵隐寺聊了聊出路及副业销售18万的操作

陆通

程序员 大龄程序员 就业 副业搞钱

大数据-64 Kafka 深入理解 Kafka 分区与重分配机制:高并发与高可用的核心 实机测试

武子康

Java 大数据 kafka 分布式 消息队列

谷歌发布Hive-BigQuery开源连接器,加强跨平台数据集成能力_数据库_Renato Losio_InfoQ精选文章