写点什么

拜拜,昂贵的谷歌搜索 API!阿里开源 RL 框架让大模型自给自足、成本直降 88%,网友:游戏规则变了

  • 2025-05-09
    北京
  • 本文字数:2385 字

    阅读完需:约 8 分钟

大小:1.13M时长:06:35
拜拜,昂贵的谷歌搜索 API!阿里开源 RL 框架让大模型自给自足、成本直降88%,网友:游戏规则变了

整理 | 华卫


近日,阿里巴巴的研究人员在 Hugging Face 上发布了一种名为“ZeroSearch”的新技术,可以大大降低训练 AI 系统进行信息搜索的成本和复杂度,完全消除对昂贵商业搜索引擎 API 的需求。


研究人员表示,“强化学习(RL)训练需要频繁进行部署,可能会涉及到数十万次搜索请求,这会产生巨额的 API 费用,严重限制了可扩展性。”


据介绍,这项新技术是一种强化学习框架,允许大语言模型 (LLM) 通过模拟的方式开发高级搜索功能,而无需在训练过程中与真实的搜索引擎进行交互。并且,其表现优于基于真实搜索引擎的模型,同时产生的 API 成本为零。既能让企业更好地控制 AI 系统学习检索信息的方式,又可以为其节省大量的 API 费用。


该技术适用于多个模型系列,包括 Qwen-2.5 和 LLaMA-3.2,且无论是基础模型还是经过指令调整的模型都能应用,无需单独的监督预热阶段,并与近端策略优化 (PPO)、组相对策略优化 (GRPO)等各种 RL 算法兼容。目前,研究人员已在 GitHub 和 Hugging Face 上提供了他们的代码、数据集和预训练模型,允许其他研究人员和公司能够应用这一方法。


项目链接:https://huggingface.co/collections/sunhaonlp/zerosearch-681b4ce012b9b6899832f4d0


有网友评价,“ZeroSearch 是 LLM 的游戏规则改变者。”还有人说,“这似乎是 RAG 应该发展的方向。”



以极低的成本超越谷歌


要开发能够自主搜索信息的 AI 助手会面临两大挑战:一是在训练过程中,搜索引擎返回的文档质量不可预测;二是训练高级 AI 系统通常需要对大型科技公司控制的服务进行昂贵的 API 调用,尤其是向谷歌这样的商业搜索引擎进行数十万次 API 调用,成本高得令人望而却步。


在针对七个问答数据集所进行的全面实验中,ZeroSearch 的性能表现不仅与使用真实搜索引擎训练的模型相当,而且在很多情况下还超越了它们。结果表明,ZeroSearch 使用 3B LLM 作为模拟搜索引擎,就可以有效地提升策略模型的搜索能力;一个拥有 70 亿参数的检索模块能达到可与谷歌搜索相媲美的性能,而一个拥有 140 亿参数的模块甚至超过了谷歌搜索的表现。


更重要的是,ZeroSearch 表现出强大的可扩展性:增加 GPU 的数量可以显著加快模拟 LLM 的生成吞吐量,从而实现高效的大规模部署。



并且,ZeroSearch 在基础模型和指令优化模型中都能很好地泛化。在这两种模型类型下,ZeroSearch 都能稳步提高奖励性能,这突出了它的通用性。



“这证明了在强化学习的架构中,使用一个经过良好训练的 LLM 来替代真实搜索引擎是可行的。” 研究人员指出。


值得注意的是,ZeroSearch 在成本方面的节省也相当可观。根据研究人员的分析,通过 SerpAPI 使用 Google 搜索引擎对大约 64000 个搜索查询进行训练,成本约为 586.70 美元;而在四个 A100 GPU 上使用一个拥有 140 亿参数的模拟大型语言模型进行训练,成本仅为 70.80 美元,降低了 88%。


由此来看,ZeroSearch 所能解决的问题意义重大。不过,研究人员也指出,ZeroSearch 也有一定的局限性。部署模拟搜索 LLM 需要访问 GPU 服务器,虽然比商业 API 使用更具成本效益,但这会带来额外的基础设施成本。


不用搜索引擎怎么进行搜索?


据介绍,ZeroSearch 的方法始于一个轻量级的监督微调过程,将 LLM 转化为一个能够生成相关和不相关文档以响应查询的检索模块,可以作为模拟搜索引擎,生成相关和嘈杂的文档以响应查询。



研究人员解释道:“我们的关键认知是,LLM 在大规模预训练期间已经获得了广泛的世界知识,并且能够在给定搜索查询的情况下生成相关文档,真实搜索引擎和模拟 LLM 之间的主要区别在于返回内容的文本样式。但是,通过轻量级监督微调,即使是相对较小的 LLM 也可以有效地模拟真实搜索引擎的行为。”


除了消除 API 成本之外,使用 LLM 生成文档的一个重要优势是能够控制文档质量。具体来说,在监督微调过程中,通过提示设计区分导致正确或错误答案的文档,使模拟 LLM 只需调整提示中的几个单词即可学习生成相关或嘈杂的文档。


在强化学习训练期间,该系统采用了研究人员所说的“基于课程搜索模拟的推出策略”。在推出过程中,策略模型会执行交互式推理并生成搜索查询,然后将查询输入模拟 LLM 以生成相应的文档。为了逐步增加训练的难度,该系统在强化学习训练期间引入了一种基于课程学习的部署机制,这种机制下生成文档的质量会随着时间的推移而逐渐降低,以模拟越来越具有挑战性的检索场景。这允许策略模型首先学习基本的输出格式和任务要求,然后再逐步适应更具挑战性和嘈杂的检索场景。


奖励信号是强化学习过程中的主要监督。在这项工作中,ZeroSearch 采用了基于 F1 分数的奖励,该奖励只关注答案的准确性。


对 AI 开发的未来意味着什么?


ZeroSearch 的这一突破标志着 AI 系统的训练方式发生了重大转变。其表明,AI 在不依赖搜索引擎等外部工具的情况下也能实现提升。


对于预算有限的小型 AI 公司和初创企业来说,这种方法可以创造公平的竞争环境。API 调用的高昂成本一直是开发复杂 AI 助手的一大进入壁垒,ZeroSearch 将这些成本降低了近 90%,使高级 AI 训练变得更加触手可及。除了节省成本之外,这项技术还让开发者能够更好地控制训练过程。在使用真正的搜索引擎时,返回文档的质量是不可预测的。而借助模拟搜索,开发者能够精确控制 AI 在训练过程中所接触到的信息。


随着大语言模型的不断发展,像 ZeroSearch 这样的技术意味着,未来 AI 系统可以通过自我模拟而不是依赖外部服务来发展日益复杂的能力,这有可能会改变 AI 开发的经济模式,并减少对大型技术平台的依赖。此外,传统搜索引擎对 AI 开发的必要性似乎在降低。


随着 AI 系统变得更加自给自足,未来几年的技术格局可能会大不相同。


参考链接:


https://venturebeat.com/ai/alibabas-zerosearch-lets-ai-learn-to-google-itself-slashing-training-costs-by-88-percent/


https://arxiv.org/pdf/2505.04588


声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载


2025-05-09 16:509244

评论

发布
暂无评论

数据平台数据智能化入库

百度Geek说

数据平台 智能入库 自动化代码生成 LLM工程化

对话即服务,不跳转、不重复,天润融通ZENAVA让客服更聪明

天润融通

未来十年,袋鼠云将实现“一体两翼”Data+AI应用战略

袋鼠云数栈

发布会 Data + AI Data+AI 袋鼠云 易知微

LLM 应用评估综合指南(多轮对话系统、RAG、AI Agent)

Baihai IDP

AI LLM LLM应用评估 RAG 评估 Agent 评估

CST电磁仿真软件支持哪些硬件加速?正版CST软件购买流程

思茂信息

cst仿真软件 CST软件 CST Studio Suite

高效考勤管理,用BeeWorks就够了!

BeeWorks

即时通讯 IM 私有化部署

springboot项目集成dolphinscheduler调度器 可拖拽spark任务管理

刘大猫

人工智能 云计算 物联网 大模型

BeeWorks 高效管理指南:客户端统一管控与配置

BeeWorks

即时通讯 IM 私有化部署

探秘黑龙江三级等保测评最新要点

等保测评

防患于未然:用于品牌危机预警的境外社媒监控工具盘点

沃观Wovision

海外媒体 舆情监测 沃观Wovision 社交媒体监控 海外社交媒体监控

案例分享 | RFID智能工器具管理在汽车维修间的应用

斯科信息

斯科信息 RFID技术 RFID智能工具柜 RFID智能工具车 RFID工作站

挑战一周用 AI 开发商业化项目!4 大痛点反思 + 新手专属提示词分享

王中阳Go

AI

捷行读书会:第三期总结分享会

ShineScrum

读书感悟 #读书 分享会

FishAudio 推出 S1 模型:2 万开发者,500 万美元 ARR;蛐蛐开源桌面语音输入工具,优化编程术语识别丨日报

RTE开发者社区

HDD如何在AI时代,守住数据存储的“基本盘”?

新消费日报

5款更专业的境外社交媒体监控工具推荐

沃观Wovision

沃观Wovision 舆情监测系统 社交媒体监控 海外社交媒体监控

欧洲开源生态启示:从技术工具到战略主权,网络安全与AI驱动下的转型之路

安势信息

开源安全 SBOM 开源安全与治理 欧洲开源

探秘黑龙江托管云:开启高效数字化新征程

等保测评

AI 英语学习APP的开发流程

北京木奇移动技术有限公司

AI教育 软件外包公司 AI英语学习

工业管理 项目管理经验总结(26)

万里无云万里天

项目管理 工业 工厂运维

职责分离的艺术:剖析主从Reactor模型如何实现极致的并发性能

poemyang

RPC IO多路复用 Reactor多线程

天润融通解析人工客服还能撑几年?数据已经给出答案

天润融通

传统客服组织 VS 天润融通业务专家+AI员工,差距一目了然

天润融通

绿电直连 vs 隔墙售电:本质区别一文说清

西格电力

新能源 电力交易 绿电直连 隔墙售电 能源方案

速卖通商品详情API秘籍!轻松获取SKU属性数据

Datafox(数据狐)

速卖通API 速卖通数据采集 速卖通商品详情API 速卖通商品数据分析

亚马逊商品详情 API 秘籍!轻松获取 SKU 属性数据

Datafox(数据狐)

亚马逊API 亚马逊商品详情API 亚马逊商品数据采集

一键生成爆款文章,并自动发布!

王磊

防火墙、IDS/IPS… 哈尔滨等保测评必备安全工具

等保测评

融云亮相 GITEX 2025,智能通信方案驱动全球数字化转型

融云 RongCloud

华数传媒用 NocoBase 快速搭建 AI 多模态研发平台

NocoBase

人工智能 数据库 开源 低代码 无代码

拜拜,昂贵的谷歌搜索 API!阿里开源 RL 框架让大模型自给自足、成本直降88%,网友:游戏规则变了_AI&大模型_华卫_InfoQ精选文章