Google 近期针对 BigQuery 推出了面向开源模型的第三方生成式 AI 推理功能。这一更新允许数据团队直接使用简单的 SQL 语句,部署并运行来自 Hugging Face 或 Vertex AI Model Garden 的任何模型。该接口目前处于预览阶段,其最大的亮点在于消除了对独立机器学习(ML)基础设施的需求,系统会自动启动计算资源、管理端点,并在任务完成后通过 BigQuery 的 SQL 接口自动清理资源。
这项新功能解决了困扰数据团队已久的痛点。在过去,运行开源模型往往意味着需要管理 Kubernetes 集群、配置端点以及在多种工具之间反复切换。Virinchi T 在一篇关于此次发布的 Medium 文章中指出:
这一过程需要多种工具协同、不同的技能储备以及巨大的运维开销。对于许多数据团队来说,这种摩擦意味着即便模型本身是免费且公开的,AI 能力依然显得遥不可及。
然而,得益于 BigQuery 的 SQL 接口,整个工作流现在被简化为仅需两条 SQL 语句。用户首先通过一条 CREATE MODEL 语句来创建模型,只需指定 Hugging Face 的模型 ID(例如 sentence-transformers/all-MiniLM-L6-v2)或 Vertex AI Model Garden 中的模型名称。BigQuery 会根据默认配置自动分配计算资源,部署过程通常在 3 到 10 分钟内即可完成,具体时长取决于模型大小。
部署完成后,用户可以使用 AI.GENERATE_TEXT(针对语言模型)或 AI.GENERATE_EMBEDDING(针对嵌入模型)直接对 BigQuery 表中的数据进行推理查询。平台通过 endpoint_idle_ttl 选项管理资源的生命周期,该功能会自动关闭闲置端点以节省费用。此外,在批处理任务结束后,用户还可以通过 ALTER MODEL 语句手动卸载端点。
为了满足生产环境的需求,该功能还支持高度定制化。用户可以直接在 CREATE MODEL 语句中设定机器类型、副本数量以及端点闲置时间。通过 Compute Engine 预留功能,还可以锁定 GPU 实例以确保性能稳定。当不再需要某个模型时,只需执行一条简单的 DROP MODEL 语句,系统便会自动清理所有关联的 Vertex AI 资源。
Google 在官方博客中将该系统描述为提供“精细的资源控制”和“自动化的资源管理”,旨在让团队在不脱离 SQL 环境的情况下,找到性能与成本之间的最佳平衡点。2025 年 9 月发布的一篇早期博客曾展示,利用类似的开源嵌入模型处理 3800 万行数据,成本仅需约 2 到 3 美元。
目前,该功能已支持超过 1.3 万个 Hugging Face 文本嵌入模型和超过 17 万个文本生成模型,涵盖了 Meta 的 Llama 系列和 Google 的 Gemma 家族。需要注意的是,所选模型必须符合 Vertex AI Model Garden 的部署要求,包括区域可用性和配额限制。
Virinchi T 强调了这一变革对不同角色的意义:
对于数据分析师而言,你现在可以无需离开 SQL 环境,也不必等待工程资源支持,就能直接实验 ML 模型。对于数据工程师而言,构建由机器学习驱动的数据管道变得极其简单,再也不用维护独立的 ML 基础设施。
此次发布标志着 BigQuery 将与 Snowflake 的 Cortex AI 以及 Databricks 的 Model Serving 展开直接竞争,后两者同样提供基于 SQL 的 ML 推理能力。而 BigQuery 的竞争优势可能在于其与 Hugging Face 庞大模型库在数据仓库内的深度集成,这对于已经在 Google Cloud 上运行业务的用户具有极强的吸引力。
目前,关于 Gemma 模型的文本生成以及嵌入生成的相关文档和教程已正式上线。
原文链接:
https://www.infoq.com/news/2026/01/bigquery-sql-huggingface-managed/





