写点什么

等不到 OpenAI 开源了!5 个工程师 24 小时手撸免费版 Deep Research,效果直追正主、过程全公开

  • 2025-02-08
    北京
  • 本文字数:3475 字

    阅读完需:约 11 分钟

大小:1.58M时长:09:12
等不到 OpenAI 开源了!5 个工程师 24 小时手撸免费版 Deep Research,效果直追正主、过程全公开

整理 |华卫、核子可乐


OpenAI 新推出的 Deep Research 功能令人瞩目,但目前仅向订阅了 OpenAI 每月 200 美元 ChatGPT Pro 计划的用户提供。在该功能发布不到 24 小时后,来自人工智能开发平台 Hugging Face 的 5 名工程师,其中包括该公司联合创始人兼首席科学家 Thomas Wolf,表示他们打造出了 Deep Research 的免费开源版本。


该团队表示,Open Deep Research 能够自主浏览网页,滚动页面、处理文件,甚至利用数据进行计算。他们致力于改善体验,并已在 GitHub 上提供源代码以供检查和反馈。并且,Hugging Face 详细公开了 Open Deep Research 的完整开发过程,该团队的负责人日前也在采访中透露了更多幕后信息。


极限 24 小时“克隆”任务


凌晨 2 点设计出基础架构

早上 7 点接入 o1 模型

下午 3 点实现网页自主滚动技术

晚上 9 点完成文件动态解析模块


以上是该团队在 24 小时内所完成的事。与 OpenAI 的 Deep Research 以及谷歌依托 Gemini 打造的最早同名“Deep Research”(于去年 12 月首次发布,早于 OpenAI)类似,Hugging Face 的方案是为现有 AI 模型添加一套“智能体”框架,使其能够执行多步骤任务,例如在收集信息的同时构建报告、并最终展示给用户。


据该团队介绍, Open Deep Research 由一个人工智能模型(OpenAI 的 o1)和一个开源“代理框架”组成,后者可帮助该模型规划其分析并指导其使用搜索引擎等工具。该团队表示,“尽管众多优秀的大模型均以开源形式免费开放使用,但 OpenAI 并未透露太多有关 Deep Research 背后的代理框架的信息。因此,我们决定开始一项 24 小时的任务,以重现他们的结果,并在此过程中开源所需的框架!”


_开源项目地址:_https://github.com/huggingface/smolagents/tree/main/examples/open_deep_research


该团队要解决的对传统人工智能智能体系统的首要改进,是采用所谓的 “代码智能体”。其指出,让智能体用代码表达其行动有诸多优势,其中最显著的是,代码就是专门为表达复杂的行动序列而设计的。


根据 Roucher 的解释,Hugging Face 还重现了一个保证项目得以顺利运行的核心组件。他们使用 Hugging Face 的开源“smolagents”库占得先机,此库使用到所谓“编码智能体”而非基于 JSON 的智能体。这些编码智能体使用程序代码编写动作,据称这使其任务完成效率提高了 30%。如此一来,系统能够更加简洁地处理复杂的动作序列。


工具集方面,与其他开源 AI 应用一样,在外部贡献者的贡献和支持下,Open Deep Research 背后的开发人员不必将时间浪费在迭代设计身上,该团队借鉴了他人的工作成果,大大缩短了开发时长。虽然要达到最佳性能可能需要像 Operator 那样功能完备的网络浏览器交互,但目前为了初步验证概念,他们先从一个极其简单的基于文本的网络浏览器入手,并使用了用于读取多种文本文件格式的简易文本检查器。


这些工具取自微软研究院出色的 Magentic-One 智能体,该团队没有对其做太多改动,因为他们的目标是在尽可能降低复杂度的同时,获得尽可能高的性能。以下是他们认为能切实提升这些工具性能的短期改进路线图:


  • 增加可读取的文件格式数量。

  • 提出对文件更精细的处理方式。

  • 用基于视觉的浏览器替代现有的浏览器 。


不过,Hugging Face 团队也认识到,OpenAI 的深度研究工具或许受益于他们随 Operator 推出的出色网络浏览器。据该团队称,接下来他们我们打算打造图形用户界面(GUI)智能体,也就是 “能查看用户的屏幕,并能直接通过鼠标和键盘进行操作的智能体”。为此,他们正在招聘一名全职工程师来协助推进这个项目及更多工作。


背后模型的选择:DeepSeek 和 o3 都试过了


如果没有现有 AI 模型充当其核心,AI 智能体根本无法发挥作用。目前,Open Deep Research 通过 API 站在了 OpenAI 旗下大语言模型及模拟推理模型的肩膀上。但除此之外,它也完全可以适应其他开放权重 AI 模型。其中的创新之处在于,Open Deep Research 的智能体结构可将所有内容整合在一起,并由 AI 模型自主完成研究任务。


来自 Hugging Face 并参与 Open Deep Research 项目的 Aymeric Roucher 对外透露了研究团队如何选择 AI 模型。“我们没有选择开放模型,因为研究发现封闭模型的效果更好。但我们会公开整个开发过程并展示代码。大家可以随意切换至任意其他模型,它支持完全开源的流程。”


Roucher 还补充说,“我尝试了多种大模型,包括 DeepSeek R1 和 o3-mini。单就本用例来看,o1 的效果最好。但随着后续启动 open-R1 计划,我们也会考虑用更好的开放模型取代 o1。”对于 o3-mini,该团队称,“它速度确实很快,但表现不如 o1 和 gpt - 4o。我想模型太小的话,应对艰巨任务还是不行。”谈到 DeepSeek R1,其表示,“它的表现不如 o1。这并非像许多大语言模型那样是因为 “笨”,更多是因为对框架指南的适配不足。所以我们在考虑通过微调来解决这个问题!”


虽然这套研究智能体的核心大模型或 SR 模型非常重要,但 Open Deep Research 表明构建正确的代理层才是关键,基准测试也证明多步骤代理方法大大提高了大语言模型的能力:OpenAI 的 GPT-4o 本体(无智能体代理框架)在 GAIA 基准测试中的平均得分为 29%,而 OpenAI Deep Research 则高达 67%。


值得注意的是,目前除 Open Deep Research 外,还有其他一些依赖于开源模型和工具的 OpenAI 深度研究工具 “复制品”,包括 node-DeepResearch 和 OpenDeepResearcher。但原版 Deep Research 由 o3 模型的一个版本提供支持,如果背后没有可与 o3 匹敌的模型支持,这些替代版可能无法与之相媲美。


在通用人工智能助手的基准测试 GAIA 上,Open Deep Research 获得了 54% 的准确率分数。相比之下,OpenAI 的深度研究工具得分是 67.36% 。Hugging Face 在说明帖中解释称,GAIA 测试包含复杂的多步骤问题,例如:


1960 年电影《惊险重重》中使用了真实远洋客轮作为拍摄道具。在该客轮 1949 年 10 月的早餐菜单中,有哪些水果出现在了 2008 年的画作《乌兹别克斯坦的刺绣》当中?将这些水果以逗号分隔的列表形式列出,从 12 点位置顺时针开始按它们在画中出现的顺序依次列举,注意使用名称的复数形式。


为了正确回答这类问题,AI 智能体必须搜索多个不同来源并将其组合成一条连贯的答案。GAIA 中的许多问题哪怕对于人类来说都相当困难,因此能够有效测试代理式 AI 的处理能力。


开源 AI 的惊人速度


虽然此次重现的开源研究智能体的性能似乎还无法真正与 OpenAI 相媲美,但它的出现至少让更多开发者获得了自由研究并改进该技术的可能性。同时,Open Deep Research 项目也展现了研究界快速重现并公开分享专有 AI 功能的能力,这些功能以往只能从商业提供商处获取。


有网友直呼,“这意义重大!开源替代方案正是人工智能领域所需要的。考虑到开发时间线,在 GAIA 基准测试中能达到 55% 的成绩已经相当令人瞩目了 —— 很期待看到它后续的发展。”


Roucher 总结称,“我认为这次的基准测试结果对于解决难题具有巨大的指导意义。但在速度和用户体验方面,我们的方案在优化水平上仍无法与专有成果比肩。”据其介绍,Hugging Face 的下一步改进计划不仅包括支持更多文件格式以及基于视觉的网页浏览功能,还在尝试克隆 OpenAI Operator,其可以在网络浏览器环境中执行其他多种类型的任务(如查看计算机屏幕并控制鼠标 / 键盘输入等)。


此外,Roucher 表示,“大家反响很好。有很多新的贡献者加入进来,并向我们提出了补充建议。这真的很有种在技术发展的浪头上弄潮的感觉,感谢社区提供的有力支持!”。对此有网友评价道,“这就是典型的史翠珊效应(注:指试图阻止公众了解某些信息,结果反而使该信息更加广为人知)。你惹恼了一群优秀的工程师,他们白天在公司整日编写代码,回家后晚上还接着免费编写代码。你告诉别人他们做不成某事,他们偏要做成。我们不需要 OAI(为 OpenAI 缩写)。”


值得一提的是,开源 AI 惊人的发展速度似乎也震慑到了一心想转向营利型的 OpenAI。此前在目睹 DeepSeek 火爆出圈后,OpenAI 的 CEO 萨姆·奥特曼(Sam Altman)就表态称,OpenAI 在开源 AI 方面“一直站在历史的错误一边”。今日凌晨,距离 Open Deep Research 推出不过两天,OpenAI 就发帖宣布,ChatGPT 搜索功能已正式向所有用户推出,无需注册或登录。也就是说,现在所有人都能用 ChatGPT 进行网络搜索了。



参考链接


https://huggingface.co/blog/open-deep-research


https://arstechnica.com/ai/2025/02/after-24-hour-hackathon-hugging-faces-ai-research-agent-nearly-matches-openais-solution/


https://techcrunch.com/2025/02/04/hugging-face-researchers-aim-to-build-an-open-version-of-openais-deep-research-tool/

2025-02-08 16:1610720

评论

发布
暂无评论

潮玩宇宙这类链游加数藏玩法做下来多少成本呢

西安链酷科技

波场链TRX质押与能量业务:机遇与路径全解析

西安链酷科技

根植中国,驰骋全球 | 中国重汽:擎动商用车产业格局的中国力量

科技经济

下一代海外社交媒体分析平台如何预警危机与发现增长机会?

沃观Wovision

社媒监测 海外社交媒体监控 社媒分析

运动手表+质押分红链游:硅谷客户的成功案例与全解析

西安链酷科技

地推任务管理小程序系统:高效赋能推广与分店管理的核心工具

微擎应用市场

点量云流突破技术边界,实现2D应用与3D内容的无缝云渲染融合

点量实时云渲染

数字孪生 云渲染 实时云渲染 云流化 像素流送

分享一下从业六年的区块链热点变化

西安链酷科技

出海企业必备!2026年海外媒体监测工具 Top 10 盘点

沃观Wovision

社交媒体监控 海外社交媒体监控 媒体监测 社媒分析

社群引流裂变管家:智能社群运营的全能解决方案

微擎应用市场

企业级AI应用落地:森马如何通过AI网关解决大模型“多而杂、难观测、不稳健”的挑战?

阿里巴巴云原生

阿里云 云原生 森马 阿里云AI网关

掌门生意宝公众号管理系统:一站式实体商家线上营销解决方案

微擎应用市场

B2B出海线索枯竭?构建海外推广持续获客的5个核心要素

Wolink

出海 出海企业 海外营销推广 海外推广 海外红人营销

大厂都在用的测试基础设施:深度解析Dify工作流引擎的设计哲学与最佳实践

测吧(北京)科技有限公司

透明计算的十年闹剧

脑极体

AI

共筑国产AI+新生态!枫清科技×麒麟软件生态强强联合,国产AI一体机重磅发布

Fabarta

跨节点协同、合规可控:隐语SecretFlow在运营商架构中的应用解析

隐语SecretFlow

诚客网络人力资源管理系统:一站式 HR 数字化管理解决方案

微擎应用市场

精彩回顾 | 深度拆解AI+可观测性的落地价值,驱动智能运维全面革新!

博睿数据

区块链 Web3 系统的测试

北京木奇移动技术有限公司

区块链开发 软件外包公司 web3开发

报表数据源配置总翻车?这篇 JNPF 实操指南,小白也能 10 分钟搞定!

引迈信息

AI 数据分析训练营第二期毕业总结

李某人

极客时间 训练营 毕业总结 AI数据分析训练营毕业总结

十大海外社交媒体分析软件全对比:找到你的完美工具

沃观Wovision

社交媒体 社媒监测 海外社交媒体监控 社媒分析

写给 0-1 岁的初创公司合伙人 系列文章汇总

Y11

创业 找工作 创业者 实习 校招

Java Reactive Stream 初探

inBuilder低代码平台

响应式编程 背压处理 流式编程 非阻塞式编程

穿透式监管产品发布,助力构建全方位风险防控体系

inBuilder低代码平台

穿透式监管 风险监管 风险防控 智慧监督 风险溯源

社交媒体营销的“影响力指数”评估体系

Wolink

跨境电商 社交媒体 海外营销推广 品牌出海 海外红人营销

超融合架构技术全景盘点:部署模型、资源调度与高可用机制

智驱前线

OceanBase Session ID 之谜

老纪的技术唠嗑局

数据库 session

Solana ETF 再添「新军」,资金流入却难挡币价颓势,山寨币 ETF 浪潮尚待时日

TechubNews

区块链 Web3 系统的运维

北京木奇移动技术有限公司

区块链开发 软件外包公司 web3开发

等不到 OpenAI 开源了!5 个工程师 24 小时手撸免费版 Deep Research,效果直追正主、过程全公开_AI&大模型_华卫_InfoQ精选文章