写点什么

等不到 OpenAI 开源了!5 个工程师 24 小时手撸免费版 Deep Research,效果直追正主、过程全公开

  • 2025-02-08
    北京
  • 本文字数:3475 字

    阅读完需:约 11 分钟

大小:1.58M时长:09:12
等不到 OpenAI 开源了!5 个工程师 24 小时手撸免费版 Deep Research,效果直追正主、过程全公开

整理 |华卫、核子可乐


OpenAI 新推出的 Deep Research 功能令人瞩目,但目前仅向订阅了 OpenAI 每月 200 美元 ChatGPT Pro 计划的用户提供。在该功能发布不到 24 小时后,来自人工智能开发平台 Hugging Face 的 5 名工程师,其中包括该公司联合创始人兼首席科学家 Thomas Wolf,表示他们打造出了 Deep Research 的免费开源版本。


该团队表示,Open Deep Research 能够自主浏览网页,滚动页面、处理文件,甚至利用数据进行计算。他们致力于改善体验,并已在 GitHub 上提供源代码以供检查和反馈。并且,Hugging Face 详细公开了 Open Deep Research 的完整开发过程,该团队的负责人日前也在采访中透露了更多幕后信息。


极限 24 小时“克隆”任务


凌晨 2 点设计出基础架构

早上 7 点接入 o1 模型

下午 3 点实现网页自主滚动技术

晚上 9 点完成文件动态解析模块


以上是该团队在 24 小时内所完成的事。与 OpenAI 的 Deep Research 以及谷歌依托 Gemini 打造的最早同名“Deep Research”(于去年 12 月首次发布,早于 OpenAI)类似,Hugging Face 的方案是为现有 AI 模型添加一套“智能体”框架,使其能够执行多步骤任务,例如在收集信息的同时构建报告、并最终展示给用户。


据该团队介绍, Open Deep Research 由一个人工智能模型(OpenAI 的 o1)和一个开源“代理框架”组成,后者可帮助该模型规划其分析并指导其使用搜索引擎等工具。该团队表示,“尽管众多优秀的大模型均以开源形式免费开放使用,但 OpenAI 并未透露太多有关 Deep Research 背后的代理框架的信息。因此,我们决定开始一项 24 小时的任务,以重现他们的结果,并在此过程中开源所需的框架!”


_开源项目地址:_https://github.com/huggingface/smolagents/tree/main/examples/open_deep_research


该团队要解决的对传统人工智能智能体系统的首要改进,是采用所谓的 “代码智能体”。其指出,让智能体用代码表达其行动有诸多优势,其中最显著的是,代码就是专门为表达复杂的行动序列而设计的。


根据 Roucher 的解释,Hugging Face 还重现了一个保证项目得以顺利运行的核心组件。他们使用 Hugging Face 的开源“smolagents”库占得先机,此库使用到所谓“编码智能体”而非基于 JSON 的智能体。这些编码智能体使用程序代码编写动作,据称这使其任务完成效率提高了 30%。如此一来,系统能够更加简洁地处理复杂的动作序列。


工具集方面,与其他开源 AI 应用一样,在外部贡献者的贡献和支持下,Open Deep Research 背后的开发人员不必将时间浪费在迭代设计身上,该团队借鉴了他人的工作成果,大大缩短了开发时长。虽然要达到最佳性能可能需要像 Operator 那样功能完备的网络浏览器交互,但目前为了初步验证概念,他们先从一个极其简单的基于文本的网络浏览器入手,并使用了用于读取多种文本文件格式的简易文本检查器。


这些工具取自微软研究院出色的 Magentic-One 智能体,该团队没有对其做太多改动,因为他们的目标是在尽可能降低复杂度的同时,获得尽可能高的性能。以下是他们认为能切实提升这些工具性能的短期改进路线图:


  • 增加可读取的文件格式数量。

  • 提出对文件更精细的处理方式。

  • 用基于视觉的浏览器替代现有的浏览器 。


不过,Hugging Face 团队也认识到,OpenAI 的深度研究工具或许受益于他们随 Operator 推出的出色网络浏览器。据该团队称,接下来他们我们打算打造图形用户界面(GUI)智能体,也就是 “能查看用户的屏幕,并能直接通过鼠标和键盘进行操作的智能体”。为此,他们正在招聘一名全职工程师来协助推进这个项目及更多工作。


背后模型的选择:DeepSeek 和 o3 都试过了


如果没有现有 AI 模型充当其核心,AI 智能体根本无法发挥作用。目前,Open Deep Research 通过 API 站在了 OpenAI 旗下大语言模型及模拟推理模型的肩膀上。但除此之外,它也完全可以适应其他开放权重 AI 模型。其中的创新之处在于,Open Deep Research 的智能体结构可将所有内容整合在一起,并由 AI 模型自主完成研究任务。


来自 Hugging Face 并参与 Open Deep Research 项目的 Aymeric Roucher 对外透露了研究团队如何选择 AI 模型。“我们没有选择开放模型,因为研究发现封闭模型的效果更好。但我们会公开整个开发过程并展示代码。大家可以随意切换至任意其他模型,它支持完全开源的流程。”


Roucher 还补充说,“我尝试了多种大模型,包括 DeepSeek R1 和 o3-mini。单就本用例来看,o1 的效果最好。但随着后续启动 open-R1 计划,我们也会考虑用更好的开放模型取代 o1。”对于 o3-mini,该团队称,“它速度确实很快,但表现不如 o1 和 gpt - 4o。我想模型太小的话,应对艰巨任务还是不行。”谈到 DeepSeek R1,其表示,“它的表现不如 o1。这并非像许多大语言模型那样是因为 “笨”,更多是因为对框架指南的适配不足。所以我们在考虑通过微调来解决这个问题!”


虽然这套研究智能体的核心大模型或 SR 模型非常重要,但 Open Deep Research 表明构建正确的代理层才是关键,基准测试也证明多步骤代理方法大大提高了大语言模型的能力:OpenAI 的 GPT-4o 本体(无智能体代理框架)在 GAIA 基准测试中的平均得分为 29%,而 OpenAI Deep Research 则高达 67%。


值得注意的是,目前除 Open Deep Research 外,还有其他一些依赖于开源模型和工具的 OpenAI 深度研究工具 “复制品”,包括 node-DeepResearch 和 OpenDeepResearcher。但原版 Deep Research 由 o3 模型的一个版本提供支持,如果背后没有可与 o3 匹敌的模型支持,这些替代版可能无法与之相媲美。


在通用人工智能助手的基准测试 GAIA 上,Open Deep Research 获得了 54% 的准确率分数。相比之下,OpenAI 的深度研究工具得分是 67.36% 。Hugging Face 在说明帖中解释称,GAIA 测试包含复杂的多步骤问题,例如:


1960 年电影《惊险重重》中使用了真实远洋客轮作为拍摄道具。在该客轮 1949 年 10 月的早餐菜单中,有哪些水果出现在了 2008 年的画作《乌兹别克斯坦的刺绣》当中?将这些水果以逗号分隔的列表形式列出,从 12 点位置顺时针开始按它们在画中出现的顺序依次列举,注意使用名称的复数形式。


为了正确回答这类问题,AI 智能体必须搜索多个不同来源并将其组合成一条连贯的答案。GAIA 中的许多问题哪怕对于人类来说都相当困难,因此能够有效测试代理式 AI 的处理能力。


开源 AI 的惊人速度


虽然此次重现的开源研究智能体的性能似乎还无法真正与 OpenAI 相媲美,但它的出现至少让更多开发者获得了自由研究并改进该技术的可能性。同时,Open Deep Research 项目也展现了研究界快速重现并公开分享专有 AI 功能的能力,这些功能以往只能从商业提供商处获取。


有网友直呼,“这意义重大!开源替代方案正是人工智能领域所需要的。考虑到开发时间线,在 GAIA 基准测试中能达到 55% 的成绩已经相当令人瞩目了 —— 很期待看到它后续的发展。”


Roucher 总结称,“我认为这次的基准测试结果对于解决难题具有巨大的指导意义。但在速度和用户体验方面,我们的方案在优化水平上仍无法与专有成果比肩。”据其介绍,Hugging Face 的下一步改进计划不仅包括支持更多文件格式以及基于视觉的网页浏览功能,还在尝试克隆 OpenAI Operator,其可以在网络浏览器环境中执行其他多种类型的任务(如查看计算机屏幕并控制鼠标 / 键盘输入等)。


此外,Roucher 表示,“大家反响很好。有很多新的贡献者加入进来,并向我们提出了补充建议。这真的很有种在技术发展的浪头上弄潮的感觉,感谢社区提供的有力支持!”。对此有网友评价道,“这就是典型的史翠珊效应(注:指试图阻止公众了解某些信息,结果反而使该信息更加广为人知)。你惹恼了一群优秀的工程师,他们白天在公司整日编写代码,回家后晚上还接着免费编写代码。你告诉别人他们做不成某事,他们偏要做成。我们不需要 OAI(为 OpenAI 缩写)。”


值得一提的是,开源 AI 惊人的发展速度似乎也震慑到了一心想转向营利型的 OpenAI。此前在目睹 DeepSeek 火爆出圈后,OpenAI 的 CEO 萨姆·奥特曼(Sam Altman)就表态称,OpenAI 在开源 AI 方面“一直站在历史的错误一边”。今日凌晨,距离 Open Deep Research 推出不过两天,OpenAI 就发帖宣布,ChatGPT 搜索功能已正式向所有用户推出,无需注册或登录。也就是说,现在所有人都能用 ChatGPT 进行网络搜索了。



参考链接


https://huggingface.co/blog/open-deep-research


https://arstechnica.com/ai/2025/02/after-24-hour-hackathon-hugging-faces-ai-research-agent-nearly-matches-openais-solution/


https://techcrunch.com/2025/02/04/hugging-face-researchers-aim-to-build-an-open-version-of-openais-deep-research-tool/

2025-02-08 16:1610056

评论

发布
暂无评论

深入nodejs的event-loop

coder2028

node.js

漏洞评分高达9.8分!Text4Shell 会是下一个 Log4Shell吗?

SEAL安全

安全 log4j 漏洞分析 Log4j2 漏洞 软件供应链安全

线上数据问题排查案例分享-因为 HMS 和底层 orc 文件中某字段的数据精度不一致造成的数据丢失问题

明哥的IT随笔

hadoop hive DataX

webpack模块化的原理

Geek_02d948

webpack

Redis 知识点全面击破,多图警告

小小怪下士

Java redis 程序员

Vue虚拟dom是如何被创建的

yyds2026

Vue

【1024程序员节专访】聚焦行业前沿,共话IT发展趋势

博睿数据

程序员 可观测性 智能运维 博睿数据 IT行业

Java:既然有了synchronized,为什么还要提供Lock

华为云开发者联盟

Java 开发 华为云 企业号十月 PK 榜

Vue组件是怎样挂载的

yyds2026

Vue

5 why 分析法,一种用于归纳抽象出解决方案的好方法

程序员泥瓦匠

从 wepy 到 uniapp 变形记

vivo互联网技术

wepy uni-app 前端 编译器

0元上新丨PostgreSQL零基础开发指南+223页学习资料

博文视点Broadview

js进阶手写常见函数

hellocoder2029

JavaScript

小样本学习在文心ERNIE3.0多分类任务应用--提示学习

汀丶人工智能

nlp 文本分类

京东云开发者|ElasticSearch降本增效常见的方法

京东科技开发者

elasticsearch ES 降本增效 数据压缩 存储计算分离

云小课|MRS基础原理之Oozie任务调度

华为云开发者联盟

大数据 华为云 企业号十月 PK 榜

文读懂NodeJs知识体系和原理浅析

coder2028

node.js

Webpack配置实战

Geek_02d948

webpack

Workflow,要不要了解一下

华为云开发者联盟

人工智能 华为云 企业号十月 PK 榜

webpack实战,手写loader和plugin

Geek_02d948

webpack

引擎上新|卡片焕新升级,信息高效呈现

Jianmu

DevOps 持续集成 CI/CD

SAP | 子例程

暮春零贰

SAP 10月月更 子例程

【文本检测与识别白皮书-3.2】第二节:场景文本识别方法

合合技术团队

人工智能 深度学习 文字识别 OCR 文本识别

云安全系列2:访问安全和身份管理

HummerCloud

云计算 云安全 iam 身份和访问管理 10月月更

原生拖拽太拉跨了,纯JS自己手写一个拖拽效果,纵享丝滑

茶无味的一天

CSS html HTML5, CSS3 拖拉拽 原生js

实用的正则表达式知识【建议收藏】

何极光

正则表达式 10月月更 RegExp

Docker进阶 dockerfile指令构建docker镜像

Python-派大星

10月月更

Vue模板是怎样编译的

yyds2026

Vue

redux原理是什么

xiaofeng

React

彻底搞懂nodejs事件循环

coder2028

node.js

SAP | 功能模块

暮春零贰

SAP 功能块 10月月更

等不到 OpenAI 开源了!5 个工程师 24 小时手撸免费版 Deep Research,效果直追正主、过程全公开_AI&大模型_华卫_InfoQ精选文章