限时领|《AI 百问百答》专栏课+实体书(包邮)! 了解详情
写点什么

等不到 OpenAI 开源了!5 个工程师 24 小时手撸免费版 Deep Research,效果直追正主、过程全公开

  • 2025-02-08
    北京
  • 本文字数:3475 字

    阅读完需:约 11 分钟

大小:1.58M时长:09:12
等不到 OpenAI 开源了!5 个工程师 24 小时手撸免费版 Deep Research,效果直追正主、过程全公开

整理 |华卫、核子可乐


OpenAI 新推出的 Deep Research 功能令人瞩目,但目前仅向订阅了 OpenAI 每月 200 美元 ChatGPT Pro 计划的用户提供。在该功能发布不到 24 小时后,来自人工智能开发平台 Hugging Face 的 5 名工程师,其中包括该公司联合创始人兼首席科学家 Thomas Wolf,表示他们打造出了 Deep Research 的免费开源版本。


该团队表示,Open Deep Research 能够自主浏览网页,滚动页面、处理文件,甚至利用数据进行计算。他们致力于改善体验,并已在 GitHub 上提供源代码以供检查和反馈。并且,Hugging Face 详细公开了 Open Deep Research 的完整开发过程,该团队的负责人日前也在采访中透露了更多幕后信息。


极限 24 小时“克隆”任务


凌晨 2 点设计出基础架构

早上 7 点接入 o1 模型

下午 3 点实现网页自主滚动技术

晚上 9 点完成文件动态解析模块


以上是该团队在 24 小时内所完成的事。与 OpenAI 的 Deep Research 以及谷歌依托 Gemini 打造的最早同名“Deep Research”(于去年 12 月首次发布,早于 OpenAI)类似,Hugging Face 的方案是为现有 AI 模型添加一套“智能体”框架,使其能够执行多步骤任务,例如在收集信息的同时构建报告、并最终展示给用户。


据该团队介绍, Open Deep Research 由一个人工智能模型(OpenAI 的 o1)和一个开源“代理框架”组成,后者可帮助该模型规划其分析并指导其使用搜索引擎等工具。该团队表示,“尽管众多优秀的大模型均以开源形式免费开放使用,但 OpenAI 并未透露太多有关 Deep Research 背后的代理框架的信息。因此,我们决定开始一项 24 小时的任务,以重现他们的结果,并在此过程中开源所需的框架!”


_开源项目地址:_https://github.com/huggingface/smolagents/tree/main/examples/open_deep_research


该团队要解决的对传统人工智能智能体系统的首要改进,是采用所谓的 “代码智能体”。其指出,让智能体用代码表达其行动有诸多优势,其中最显著的是,代码就是专门为表达复杂的行动序列而设计的。


根据 Roucher 的解释,Hugging Face 还重现了一个保证项目得以顺利运行的核心组件。他们使用 Hugging Face 的开源“smolagents”库占得先机,此库使用到所谓“编码智能体”而非基于 JSON 的智能体。这些编码智能体使用程序代码编写动作,据称这使其任务完成效率提高了 30%。如此一来,系统能够更加简洁地处理复杂的动作序列。


工具集方面,与其他开源 AI 应用一样,在外部贡献者的贡献和支持下,Open Deep Research 背后的开发人员不必将时间浪费在迭代设计身上,该团队借鉴了他人的工作成果,大大缩短了开发时长。虽然要达到最佳性能可能需要像 Operator 那样功能完备的网络浏览器交互,但目前为了初步验证概念,他们先从一个极其简单的基于文本的网络浏览器入手,并使用了用于读取多种文本文件格式的简易文本检查器。


这些工具取自微软研究院出色的 Magentic-One 智能体,该团队没有对其做太多改动,因为他们的目标是在尽可能降低复杂度的同时,获得尽可能高的性能。以下是他们认为能切实提升这些工具性能的短期改进路线图:


  • 增加可读取的文件格式数量。

  • 提出对文件更精细的处理方式。

  • 用基于视觉的浏览器替代现有的浏览器 。


不过,Hugging Face 团队也认识到,OpenAI 的深度研究工具或许受益于他们随 Operator 推出的出色网络浏览器。据该团队称,接下来他们我们打算打造图形用户界面(GUI)智能体,也就是 “能查看用户的屏幕,并能直接通过鼠标和键盘进行操作的智能体”。为此,他们正在招聘一名全职工程师来协助推进这个项目及更多工作。


背后模型的选择:DeepSeek 和 o3 都试过了


如果没有现有 AI 模型充当其核心,AI 智能体根本无法发挥作用。目前,Open Deep Research 通过 API 站在了 OpenAI 旗下大语言模型及模拟推理模型的肩膀上。但除此之外,它也完全可以适应其他开放权重 AI 模型。其中的创新之处在于,Open Deep Research 的智能体结构可将所有内容整合在一起,并由 AI 模型自主完成研究任务。


来自 Hugging Face 并参与 Open Deep Research 项目的 Aymeric Roucher 对外透露了研究团队如何选择 AI 模型。“我们没有选择开放模型,因为研究发现封闭模型的效果更好。但我们会公开整个开发过程并展示代码。大家可以随意切换至任意其他模型,它支持完全开源的流程。”


Roucher 还补充说,“我尝试了多种大模型,包括 DeepSeek R1 和 o3-mini。单就本用例来看,o1 的效果最好。但随着后续启动 open-R1 计划,我们也会考虑用更好的开放模型取代 o1。”对于 o3-mini,该团队称,“它速度确实很快,但表现不如 o1 和 gpt - 4o。我想模型太小的话,应对艰巨任务还是不行。”谈到 DeepSeek R1,其表示,“它的表现不如 o1。这并非像许多大语言模型那样是因为 “笨”,更多是因为对框架指南的适配不足。所以我们在考虑通过微调来解决这个问题!”


虽然这套研究智能体的核心大模型或 SR 模型非常重要,但 Open Deep Research 表明构建正确的代理层才是关键,基准测试也证明多步骤代理方法大大提高了大语言模型的能力:OpenAI 的 GPT-4o 本体(无智能体代理框架)在 GAIA 基准测试中的平均得分为 29%,而 OpenAI Deep Research 则高达 67%。


值得注意的是,目前除 Open Deep Research 外,还有其他一些依赖于开源模型和工具的 OpenAI 深度研究工具 “复制品”,包括 node-DeepResearch 和 OpenDeepResearcher。但原版 Deep Research 由 o3 模型的一个版本提供支持,如果背后没有可与 o3 匹敌的模型支持,这些替代版可能无法与之相媲美。


在通用人工智能助手的基准测试 GAIA 上,Open Deep Research 获得了 54% 的准确率分数。相比之下,OpenAI 的深度研究工具得分是 67.36% 。Hugging Face 在说明帖中解释称,GAIA 测试包含复杂的多步骤问题,例如:


1960 年电影《惊险重重》中使用了真实远洋客轮作为拍摄道具。在该客轮 1949 年 10 月的早餐菜单中,有哪些水果出现在了 2008 年的画作《乌兹别克斯坦的刺绣》当中?将这些水果以逗号分隔的列表形式列出,从 12 点位置顺时针开始按它们在画中出现的顺序依次列举,注意使用名称的复数形式。


为了正确回答这类问题,AI 智能体必须搜索多个不同来源并将其组合成一条连贯的答案。GAIA 中的许多问题哪怕对于人类来说都相当困难,因此能够有效测试代理式 AI 的处理能力。


开源 AI 的惊人速度


虽然此次重现的开源研究智能体的性能似乎还无法真正与 OpenAI 相媲美,但它的出现至少让更多开发者获得了自由研究并改进该技术的可能性。同时,Open Deep Research 项目也展现了研究界快速重现并公开分享专有 AI 功能的能力,这些功能以往只能从商业提供商处获取。


有网友直呼,“这意义重大!开源替代方案正是人工智能领域所需要的。考虑到开发时间线,在 GAIA 基准测试中能达到 55% 的成绩已经相当令人瞩目了 —— 很期待看到它后续的发展。”


Roucher 总结称,“我认为这次的基准测试结果对于解决难题具有巨大的指导意义。但在速度和用户体验方面,我们的方案在优化水平上仍无法与专有成果比肩。”据其介绍,Hugging Face 的下一步改进计划不仅包括支持更多文件格式以及基于视觉的网页浏览功能,还在尝试克隆 OpenAI Operator,其可以在网络浏览器环境中执行其他多种类型的任务(如查看计算机屏幕并控制鼠标 / 键盘输入等)。


此外,Roucher 表示,“大家反响很好。有很多新的贡献者加入进来,并向我们提出了补充建议。这真的很有种在技术发展的浪头上弄潮的感觉,感谢社区提供的有力支持!”。对此有网友评价道,“这就是典型的史翠珊效应(注:指试图阻止公众了解某些信息,结果反而使该信息更加广为人知)。你惹恼了一群优秀的工程师,他们白天在公司整日编写代码,回家后晚上还接着免费编写代码。你告诉别人他们做不成某事,他们偏要做成。我们不需要 OAI(为 OpenAI 缩写)。”


值得一提的是,开源 AI 惊人的发展速度似乎也震慑到了一心想转向营利型的 OpenAI。此前在目睹 DeepSeek 火爆出圈后,OpenAI 的 CEO 萨姆·奥特曼(Sam Altman)就表态称,OpenAI 在开源 AI 方面“一直站在历史的错误一边”。今日凌晨,距离 Open Deep Research 推出不过两天,OpenAI 就发帖宣布,ChatGPT 搜索功能已正式向所有用户推出,无需注册或登录。也就是说,现在所有人都能用 ChatGPT 进行网络搜索了。



参考链接


https://huggingface.co/blog/open-deep-research


https://arstechnica.com/ai/2025/02/after-24-hour-hackathon-hugging-faces-ai-research-agent-nearly-matches-openais-solution/


https://techcrunch.com/2025/02/04/hugging-face-researchers-aim-to-build-an-open-version-of-openais-deep-research-tool/

2025-02-08 16:1610208

评论

发布
暂无评论

🏆未来可期,WebRTC成为实时通讯方案的行业标准

码界西柚

音视频 WebRTC 实时通信 6月日更

【译】JavaScript 代码整洁之道-异常处理篇

KooFE

JavaScript 大前端 异常处理 6月日更 整洁代码

奇亚Chia挖矿系统开发方案丨奇亚Chia挖矿源码功能

系统开发咨询1357O98O718

Tapdata 实时数据融合平台解决方案(三):数据中台的技术需求

tapdata

oracle mongodb

智能炒币机器人系统开发案例解析,智能炒币机器人源码设计

系统开发咨询1357O98O718

TCP协议

IT视界

TCP 传输协议 网络通信

Tapdata 实时数据融合平台解决方案(一):现代企业数据架构及痛点

tapdata

mongodb

我的树莓派居然偷偷的学会了日语

IT蜗壳-Tango

IT蜗壳教学 6月日更

Tapdata 实时数据融合平台解决方案(四):技术选型

tapdata

大数据

🔎【Java 源码探索】深入浅出的分析HashMap(JDK7)

码界西柚

Java hashmap 6月日更 JDK7

《堂食点餐》APP前后端全部免费开源啦!

YonBuilder低代码开发平台

源码 大前端 APP开发 APICloud 外卖app

云上创新,阿里云视频云分享全场景音视频服务背后的场景探索与技术实践

阿里云CloudImagine

阿里云 音视频 在线教育 视频会议 直播技术

华为云携手马栏山文创园助力湖南广电荣获国家广电总局多项大奖

华为云开发者联盟

AI 5G 视频 华为云 马栏山

带你认识大模型训练关键算法:分布式训练Allreduce算法

华为云开发者联盟

分布式训练 Allreduce算法 集合通信 分布式通信算法 大模型训练

我把 Spring Boot 项目从 18.18M 瘦身到 0.18M,部署起来真省事!

xcbeyond

微服务 springboot 6月日更

网络攻防学习笔记 Day33

穿过生命散发芬芳

网络攻防 6月日更

6月2日,讲一个鸿蒙的故事

这不科技

华为 鸿蒙

【LeetCode】你能在你最喜欢的那天吃到你最喜欢的糖果吗?Java题解

Albert

算法 LeetCode 6月日更

AT智能量化炒币机器人系统开发详解案例

系统开发咨询1357O98O718

毕业设计So Easy:珠穆朗玛FM音频电台APP

不脱发的程序猿

android 软件开发 APP开发 毕业设计 移动应用开发

一封MySQL之父Monty的回信,开启彭立勋的数据库之路

华为云开发者联盟

MySQL 数据库 opengauss GaussDB 华为云数据库

架构实战营模块五作业

竹林七贤

国内首篇云厂商 Serverless 论文入选全球顶会:突发流量下,如何加速容器启动?

Serverless Devs

Serverless 容器 云原生

面向对象的Python编程,你需要知道这些!

华为云开发者联盟

Python 面向对象 oop 面向对象编程

一文回顾 Java 入门知识(上)

逆锋起笔

Java 后端 javase

架构实战营 - 模块 5- 作业

carl

从零开始学习3D可视化之控制对象(1)

ThingJS数字孪生引擎

物联网 可视化 3D 3D可视化 数字孪生

写给想做程序员的半吊子应届毕业生们

北游学Java

Java Python 求职 秋招

Tapdata 实时数据融合平台解决方案(二):理解数据中台

tapdata

oracle mongodb

webRTC实现音视频通话与屏幕共享

侠客行

WebRTC 屏幕共享 iOS屏幕共享 web屏幕共享

Tapdata 实时数据融合平台解决方案(五):落地

tapdata

大数据

等不到 OpenAI 开源了!5 个工程师 24 小时手撸免费版 Deep Research,效果直追正主、过程全公开_AI&大模型_华卫_InfoQ精选文章