燃爆上海 5·23-24,AICon 大模型实战风暴,50+ 干货一网打尽,100% 日程上线 了解详情
写点什么

拜拜,昂贵的谷歌搜索 API!阿里开源 RL 框架让大模型自给自足、成本直降 88%,网友:游戏规则变了

  • 2025-05-09
    北京
  • 本文字数:2385 字

    阅读完需:约 8 分钟

大小:1.13M时长:06:35
拜拜,昂贵的谷歌搜索 API!阿里开源 RL 框架让大模型自给自足、成本直降88%,网友:游戏规则变了

整理 | 华卫


近日,阿里巴巴的研究人员在 Hugging Face 上发布了一种名为“ZeroSearch”的新技术,可以大大降低训练 AI 系统进行信息搜索的成本和复杂度,完全消除对昂贵商业搜索引擎 API 的需求。


研究人员表示,“强化学习(RL)训练需要频繁进行部署,可能会涉及到数十万次搜索请求,这会产生巨额的 API 费用,严重限制了可扩展性。”


据介绍,这项新技术是一种强化学习框架,允许大语言模型 (LLM) 通过模拟的方式开发高级搜索功能,而无需在训练过程中与真实的搜索引擎进行交互。并且,其表现优于基于真实搜索引擎的模型,同时产生的 API 成本为零。既能让企业更好地控制 AI 系统学习检索信息的方式,又可以为其节省大量的 API 费用。


该技术适用于多个模型系列,包括 Qwen-2.5 和 LLaMA-3.2,且无论是基础模型还是经过指令调整的模型都能应用,无需单独的监督预热阶段,并与近端策略优化 (PPO)、组相对策略优化 (GRPO)等各种 RL 算法兼容。目前,研究人员已在 GitHub 和 Hugging Face 上提供了他们的代码、数据集和预训练模型,允许其他研究人员和公司能够应用这一方法。


项目链接:https://huggingface.co/collections/sunhaonlp/zerosearch-681b4ce012b9b6899832f4d0


有网友评价,“ZeroSearch 是 LLM 的游戏规则改变者。”还有人说,“这似乎是 RAG 应该发展的方向。”



以极低的成本超越谷歌


要开发能够自主搜索信息的 AI 助手会面临两大挑战:一是在训练过程中,搜索引擎返回的文档质量不可预测;二是训练高级 AI 系统通常需要对大型科技公司控制的服务进行昂贵的 API 调用,尤其是向谷歌这样的商业搜索引擎进行数十万次 API 调用,成本高得令人望而却步。


在针对七个问答数据集所进行的全面实验中,ZeroSearch 的性能表现不仅与使用真实搜索引擎训练的模型相当,而且在很多情况下还超越了它们。结果表明,ZeroSearch 使用 3B LLM 作为模拟搜索引擎,就可以有效地提升策略模型的搜索能力;一个拥有 70 亿参数的检索模块能达到可与谷歌搜索相媲美的性能,而一个拥有 140 亿参数的模块甚至超过了谷歌搜索的表现。


更重要的是,ZeroSearch 表现出强大的可扩展性:增加 GPU 的数量可以显著加快模拟 LLM 的生成吞吐量,从而实现高效的大规模部署。



并且,ZeroSearch 在基础模型和指令优化模型中都能很好地泛化。在这两种模型类型下,ZeroSearch 都能稳步提高奖励性能,这突出了它的通用性。



“这证明了在强化学习的架构中,使用一个经过良好训练的 LLM 来替代真实搜索引擎是可行的。” 研究人员指出。


值得注意的是,ZeroSearch 在成本方面的节省也相当可观。根据研究人员的分析,通过 SerpAPI 使用 Google 搜索引擎对大约 64000 个搜索查询进行训练,成本约为 586.70 美元;而在四个 A100 GPU 上使用一个拥有 140 亿参数的模拟大型语言模型进行训练,成本仅为 70.80 美元,降低了 88%。


由此来看,ZeroSearch 所能解决的问题意义重大。不过,研究人员也指出,ZeroSearch 也有一定的局限性。部署模拟搜索 LLM 需要访问 GPU 服务器,虽然比商业 API 使用更具成本效益,但这会带来额外的基础设施成本。


不用搜索引擎怎么进行搜索?


据介绍,ZeroSearch 的方法始于一个轻量级的监督微调过程,将 LLM 转化为一个能够生成相关和不相关文档以响应查询的检索模块,可以作为模拟搜索引擎,生成相关和嘈杂的文档以响应查询。



研究人员解释道:“我们的关键认知是,LLM 在大规模预训练期间已经获得了广泛的世界知识,并且能够在给定搜索查询的情况下生成相关文档,真实搜索引擎和模拟 LLM 之间的主要区别在于返回内容的文本样式。但是,通过轻量级监督微调,即使是相对较小的 LLM 也可以有效地模拟真实搜索引擎的行为。”


除了消除 API 成本之外,使用 LLM 生成文档的一个重要优势是能够控制文档质量。具体来说,在监督微调过程中,通过提示设计区分导致正确或错误答案的文档,使模拟 LLM 只需调整提示中的几个单词即可学习生成相关或嘈杂的文档。


在强化学习训练期间,该系统采用了研究人员所说的“基于课程搜索模拟的推出策略”。在推出过程中,策略模型会执行交互式推理并生成搜索查询,然后将查询输入模拟 LLM 以生成相应的文档。为了逐步增加训练的难度,该系统在强化学习训练期间引入了一种基于课程学习的部署机制,这种机制下生成文档的质量会随着时间的推移而逐渐降低,以模拟越来越具有挑战性的检索场景。这允许策略模型首先学习基本的输出格式和任务要求,然后再逐步适应更具挑战性和嘈杂的检索场景。


奖励信号是强化学习过程中的主要监督。在这项工作中,ZeroSearch 采用了基于 F1 分数的奖励,该奖励只关注答案的准确性。


对 AI 开发的未来意味着什么?


ZeroSearch 的这一突破标志着 AI 系统的训练方式发生了重大转变。其表明,AI 在不依赖搜索引擎等外部工具的情况下也能实现提升。


对于预算有限的小型 AI 公司和初创企业来说,这种方法可以创造公平的竞争环境。API 调用的高昂成本一直是开发复杂 AI 助手的一大进入壁垒,ZeroSearch 将这些成本降低了近 90%,使高级 AI 训练变得更加触手可及。除了节省成本之外,这项技术还让开发者能够更好地控制训练过程。在使用真正的搜索引擎时,返回文档的质量是不可预测的。而借助模拟搜索,开发者能够精确控制 AI 在训练过程中所接触到的信息。


随着大语言模型的不断发展,像 ZeroSearch 这样的技术意味着,未来 AI 系统可以通过自我模拟而不是依赖外部服务来发展日益复杂的能力,这有可能会改变 AI 开发的经济模式,并减少对大型技术平台的依赖。此外,传统搜索引擎对 AI 开发的必要性似乎在降低。


随着 AI 系统变得更加自给自足,未来几年的技术格局可能会大不相同。


参考链接:


https://venturebeat.com/ai/alibabas-zerosearch-lets-ai-learn-to-google-itself-slashing-training-costs-by-88-percent/


https://arxiv.org/pdf/2505.04588


声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载


2025-05-09 16:507946

评论

发布
暂无评论

re:invent 2023 Amazon Q 初体验

亚马逊云科技 (Amazon Web Services)

re:Invent 亚马逊云科技 Amazon Q

聊聊几个最热门的前端框架

伤感汤姆布利柏

服务运行时动态挂载JavaAgent和插件——Sermant热插拔能力解析

华为云开源

开源 微服务治理 字节码增强

Web自动化三种等待方式,一篇文章教会你

霍格沃兹测试开发学社

运维工作新时代:自主编码实现运维自动化的转型之旅

京东零售技术

运维 自动化运维

淘宝商品详情API接口封装和解析

tbapi

淘宝商品详情数据接口 淘宝商品详情解析

跨境电商企业都在用的云手机是什么?

Ogcloud

云手机 海外云手机 云手机海外版 国外云手机 电商云手机

极速提升软件测试效率:揭秘Web自动化三大等待技巧

测试人

软件测试 自动化测试 测试开发

一条龙服务利润新“玩”法

开源物联卡管理平台-设备管理

物联网 IoT eSIM安全 java 技术提升

适合tiktok运营的云手机需要满足什么条件?

Ogcloud

云手机 海外云手机 tiktok云手机 Tik Tok

如何正确编写代码注释:简易指南

Liam

程序员 前端 后端 代码 代码注释

从零开始的 dbt 入门教程 (dbt core 开发进阶篇)

不在线第一只蜗牛

软件开发 项目开发 dbt

探索AI视频生成新纪元:文生视频Sora VS RunwayML、Pika及StableVideo——谁将引领未来

汀丶人工智能

大模型 Pika sora 文生视频 Runway

RRAM机制、材料及其在神经形态计算中的应用

申公豹

存内计算

为什么老有人想让我们“程序员”失业?

互联网工科生

程序员 开发工具

跨界协作:借助gRPC实现Python数据分析能力的共享

不在线第一只蜗牛

Python gRPC RPC

揭开华为云ADN提高网络质量的秘密

华为云开发者联盟

开发 网络 华为云 华为云开发者联盟 华为云DTSE

PolarDB-X的XPlan索引选择

阿里云数据库开源

数据库 阿里云 索引 polarDB PolarDB-X

拜拜,昂贵的谷歌搜索 API!阿里开源 RL 框架让大模型自给自足、成本直降88%,网友:游戏规则变了_AI&大模型_华卫_InfoQ精选文章