【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

谷歌发布 Hive-BigQuery 开源连接器,加强跨平台数据集成能力

  • 2023-09-01
    北京
  • 本文字数:1175 字

    阅读完需:约 4 分钟

谷歌发布Hive-BigQuery开源连接器,加强跨平台数据集成能力

最近,谷歌宣布正式发布Hive-BigQuery Connector,简化 Apache Hive 和 Google BigQuery 之间的集成和迁移。这个开源连接器是一个 Hive 存储处理程序,它使 Hive 能够与 BigQuery 的存储层进行交互。

 

这个新增选项支持在 Hive 中使用类 SQI 查询语言HiveQL对 BigQuery 进行读写。这样,数据工程师就可以在不移动数据的情况下访问和查询 BigQuery 数据集,而 BigQuery 的用户则可以利用 Hive 的工具、库和框架进行数据处理和分析。谷歌云解决方案架构师Julien Phalip写道:

 

Hive-BigQuery 连接器实现了 Hive StorageHandler API,使 Hive 工作负载可以与 BigQuery 和 BigLake 表集成。所有的计算操作(如聚合和连接)仍然由 Hive 的执行引擎处理,连接器则管理所有与 BigQuery 数据层的交互,而不管底层数据是存储在 BigQuery 本地存储中,还是通过 BigLake 连接存储在云存储桶中。

 

Apache Hive是一个构建在 Hadoop 之上的流行的分布式数据仓库选项,它允许用户在大型数据集上执行查询。BigQuery是谷歌云提供的无服务器数据仓库,支持对海量数据集进行可扩展的查询。为了确保数据的一致性和可靠性,这次发布的开源连接器使用 Hive 的元数据来表示 BigQuery 中存储的表。

 

该连接器支持使用 MapReduce 和 Tez 执行引擎进行查询,在 Hive 中创建和删除 BigQuery 表,以及将 BigQuery 和 BigLake 表与 Hive 表进行连接。它还支持使用 Storage Read API 流和 Apache Arrow 格式从 BigQuery 表中快速读取数据。



图片来源:谷歌数据分析博客

 

根据谷歌云的说法,Hive-BigQuery 连接器可以在以下场景中为企业提供帮助:确保迁移过程中操作的连续性,将 BigQuery 用于需要数据仓库子集的需求,或者保有一个完整的开源软件技术栈。

 

借助BigQuery Migration Service,谷歌提供了BigQuery批处理SQL转换器交互式SQL转换器支持,可以将 Hive 查询转换为 BigQuery 特有的兼容 ANSI 的 SQL 语法。Phalip 解释说:

 

这个新的 Hive-BigQuery 连接器提供了一个额外的选项:你可以保留原来的 HiveQL 方言的查询,并继续在集群上使用 Hive 执行引擎运行这些查询,但让它们访问已迁移到 BigQuery 和 BigLake 表的数据。

 

这不是谷歌为分析不同的数据集并减少数据转换而发布的第一个开源连接器:Cloud Storage Connector实现了 Hadoop Compatible File System(HCFS) API,用于读写 Cloud Storage 中的数据文件,而Apache Spark SQL connector for BigQuery则实现了 Spark SQL Data Source API,将 BigQuery 表读取到 Spark 的数据帧中,并将数据帧写回 BigQuery。

 

Hive-BigQuery 连接器支持 Dataproc 2.0 和 2.1。谷歌还大概介绍了有关分区的一些限制。由于 Hive 和 BigQuery 的分区方式不同,所以该连接器不支持 Hive PARTITIONED BY 子句。但是,开发人员仍然可以使用 BigQuery 支持的时间单位列分区选项和摄入时间分区选项。

 

感兴趣的读者,可以从GitHub上获取该连接器。

 

原文链接:

https://www.infoq.com/news/2023/07/google-hive-bigquery-connector/

2023-09-01 08:006328

评论

发布
暂无评论
发现更多内容

Gate Labs和Scroll联创Sandy投资了Penpad,实属行业幸事

EOSdreamer111

《软件架构设计:大型网站技术架构与业务架构融合之道》PDF

程序员李木子

鸿蒙HarmonyOS实战-ArkUI组件(CustomDialog)

蜀道山

鸿蒙 HarmonyOS 组件 鸿蒙开发 ArKUI 3.0

企业数字化转型,人才是关键。华为政企咨询如何赋能客户高效培养数字化人才?

平平无奇爱好科技

后端的克星,前端的福音 -快捷提供数据库的REST数据访问接口

zhumingwu

解决Apache Tomcat “Request header is too large“ 异常 ‍

百度搜索:蓝易云

Java Apache tomcat Linux Web

Penpad获Gate Labs以及Scroll联创Sandy的投资

长安区块链

甘特图是什么意思?详细的甘特图制作教程来了,项目管理必备!

彭宏豪95

项目管理 甘特图 在线白板 办公软件 绘图软件

Dockerfile创建镜像异常问题解决

百度搜索:蓝易云

云计算 Linux 运维 Dockerfile 云服务器

区块链挖矿与云算力技术开发的融合:未来挖矿的新趋势

西安链酷科技

dapp开发 区块链挖矿系统发掘 合约软件开发

TON链的生态开发

西安链酷科技

区块链软件开发 ton链开发

遥控车模的电机控制器

智趣匠

控制 驱动 无刷电机

代码评审-findBugs

追随月光的战士

代码质量 githook findbugs

Penpad获Gate Labs以及Scroll联创Sandy的投资

石头财经

百度安全多篇议题入选Blackhat Asia以硬技术发现“芯”问题

百度安全

区块链DApp开发:打造安全、透明、高效的去中心化应用

西安链酷科技

dapp开发 链游开发dapp开发

DApp商城开发:构建去中心化电商新生态

西安链酷科技

区块链商城开发

PHP通过Redis解决并发请求的操作问题

百度搜索:蓝易云

php redis 云计算 Linux 云服务器

百度智能云千帆 ModelBuilder 技术实践系列:通过 SDK 快速构建并发布垂域模型

Baidu AICLOUD

sdk 一站式研发平台 千帆大模型平台 AI 原生 #大模型

鸿蒙HarmonyOS实战-ArkUI组件(TextInput/TextArea)

蜀道山

鸿蒙 HarmonyOS 鸿蒙开发 构架 ArKUI 3.0

Milvus 在哈啰的应用与落地

Zilliz

Milvus Zilliz 向量数据库 哈啰

Gate Labs和Scroll联创Sandy投资了Penpad,实属行业幸事

股市老人

除了Pura70系列,华为最近还有这件事值得关注!

平平无奇爱好科技

扣非净利同比大增1722.92%,歌尔股份发布2024年一季度财报

财见

联想用万全智算,画出中国AI的山脊

脑极体

AI

TON链生态开发:打造安全、高效的区块链生态

西安链酷科技

区块链系统开发

清华发布最新全球大模型评测:智谱GLM-4、文心一言直追GPT-4,Llama 3表现不俗

Geek_2d6073

让每一份算力都值得:京东广告统一检索平台实践

京东零售技术

人工智能 算法 广告 算力 企业号 4 月 PK 榜

Linux设备驱动系列(四)——设备号

Linux内核拾遗

linux开发 Linux内核 设备驱动

撮合交易系统软件定制开发:打造高效、稳定的金融交易平台

西安链酷科技

撮合交易系统 otc承兑商

一次性讲明白,百度百舸如何搞定一个可以支持多芯混合训练的 AI 集群

Baidu AICLOUD

大模型训练 AI加速 多芯混合训练

谷歌发布Hive-BigQuery开源连接器,加强跨平台数据集成能力_数据库_Renato Losio_InfoQ精选文章