为何谷歌文件检索技术可能取代企业自建的RAG技术栈

本文最初发布于 VentureBeat。

如今，企业已经认识到，检索增强生成（RAG）技术能让应用程序和 AI 代理能针对查询找到最优、最可靠的信息。然而，典型的 RAG 系统部署可能是一项技术挑战，而且存在某些不良特性。

为解决这个问题，谷歌在 Gemini API 上推出了文件搜索工具——一个全托管的 RAG 系统，“对检索管道进行了抽象化”。文件搜索工具省去了搭建 RAG 管道所需的大量工具和应用程序整合工作，工程师无需再将存储解决方案和嵌入生成器等组件拼接在一起。

该工具直接与OpenAI、亚马逊云科技和微软的企业级 RAG 产品进行竞争，它们同样致力于简化 RAG 架构。不过谷歌宣称，其解决方案所需的编排工作更少，更具独立性。

谷歌在一篇博文中指出，“文件搜索提供了一种简单、集成化且可扩展的方式，将 Gemini 与你的数据相结合，从而提供更准确、相关性更高且可验证的响应。”

在查询时，企业可免费使用文件搜索的部分功能，例如存储和嵌入生成。当这些文件被索引时，用户将开始按每百万 Token 0.15 美元的固定费率支付嵌入生成费用。

Gemini API 产品负责人 Logan Kilpatrick在X上宣布了这一消息：

我们在 Gemini API 中引入了文件搜索工具，这是我们的托管式 RAG 解决方案，提供免费的存储空间和查询时嵌入生成。

我们对这个新方法感到无比兴奋，相信它将极大简化通往情境感知 AI 系统的道路。

文件搜索基于谷歌的 Gemini 嵌入模型（最终成了大规模文本嵌入基准测试中的顶级嵌入模型）而构建。

文件搜索和集成体验

谷歌表示，文件搜索功能可以“帮你处理 RAG 的复杂性”。它会管理文件存储、分块策略和嵌入生成。开发人员可在现有的 generateContent API 中调用文件搜索功能，按照谷歌的说法，这使得该工具更易于采用。

文件搜索采用向量搜索技术来“理解用户查询的含义和上下文”。在理想情况下，即使提示词包含不准确的词语，它也能从文档中找到相关信息来应答。

该功能内置引用机制，可指向生成答案时所依据的文档的具体部分，同时支持多种文件格式。谷歌表示，这些格式包括 PDF、Docx、txt、JSON 以及“众多常见的编程语言文件类型”。

持续开展 RAG 实验

企业可能已着手构建 RAG 管道，为其 AI 代理获取正确数据并做出明智决策打基础。

由于 RAG 技术是企业保证准确性并挖掘业务洞察的关键环节，组织必须快速获得管道的可见性。RAG 可能成为一个工程难题，因为编排多种工具让它们协同工作会很复杂。

构建“传统的”RAG 管道意味着组织必须组装并微调文件摄取和解析程序，包括分块处理、嵌入生成与更新。随后，他们需要引入像Pinecone这样的向量数据库，确定其检索逻辑，并将所有内容适配到模型的上下文窗口中。此外，如有需要，还得添加引用来源。

文件搜索旨在简化所有这些工作，不过有些竞争对手的平台也提供了类似的功能。OpenAI 的助手API允许开发人员使用文件搜索功能，引导 AI 代理查找相关文档以生成回复。去年 12 月，亚马逊云科技的 Bedrock 平台也推出了数据自动化托管服务。

虽然文件搜索与其他平台类似，但谷歌的产品抽象化了 RAG 管道创建的全部要素，而非部分要素。

在谷歌博客上，AI 驱动的游戏生成平台 Beam 的创建者 Phaser Studio 表示，他利用文件搜索功能对一个包含 3000 份文件的库做了筛选。

Phaser 首席技术官理 Richard Davey 表示，“文件搜索功能让我们能即时获取所需的素材，无论是子弹发射模式的代码片段、类型模板，还是来自 Phaser‘核心库’的架构指南。这使得原本需要数天才能完成原型的创意，如今只需几分钟就能变成可以玩的游戏了。”

自发布以来，已经有一些用户表示有兴趣使用这项功能。

在 Logan Kilpatrick 的博文下，用户 Robert Cincotta评论道：

这就是我一直在寻找的工具。我正在攻读博士学位，积累了数千份 PDF 文件。我希望能找到一种方法，让我能够根据引用的数据进行作答，最终这需要一个工具来实现，但那超出了我作为初学者的能力范围。这一进展以及深度搜索功能对谷歌云盘文件检索能力的提升，都在朝着正确的方向迈进。

用户 Kuwo 发表了一篇很长的评论：

说实话，谷歌竟然免费提供存储和嵌入生成服务，这简直是一个可以一夜之间颠覆整个生态系统的举措。

RAG 一直是件人人都知道应该做却总被搁置的事，但大多数团队要么用 pinecone 拼凑出个粗糙的版本，要么干脆跳过，只是因为其部署成本实在令人望而却步。你得准备向量数据库、嵌入模型、分块策略，接着还要调试解决检索质量问题，然后突然，你需要花三周时间重建整个管道。

现在，谷歌基本上是在说，“看，我们已经处理了所有烦人的部分，你只需把文件扔给我们就行。”存储免费意味着无需因为知识库的增长时而担心成本增加；嵌入生成服务免费意味着不必每次查询都计算成本；而且它采用托管模式，你无需管理基础设施。

真正的突破在于，这将情境感知系统的门槛从“得为此专门组建团队”降至“一个下午就能完成原型开发”。所有需要外部知识却因复杂度过高而难以实施的应用，如今都变得可行了。

感觉这就像 RAG 的 AWS Lambda 时刻。这项技术一直存在可能，但直到有人将其变得异常简单之前，没有人愿意费心去实现。

还有一位用户表示：

这可是一个巨大的减阻器。实际上，你们已将构建 RAG 系统过程中最烦人的那 80%的工作给抽象化了。这会使“情境感知”成为所有 AI 应用的新基准，而非复杂的附加功能。

声明：本文为 InfoQ 翻译，未经许可禁止转载。

原文链接：https://venturebeat.com/ai/why-googles-file-search-could-displace-diy-rag-stacks-in-the-enterprise

创作场景

为何谷歌文件检索技术可能取代企业自建的 RAG 技术栈

文件搜索和集成体验

持续开展 RAG 实验