写点什么

OpenAI“背水一战”:紧急上线 Deep Research,比 DeepSeek 强三倍?网友直呼 AI 开源大战要来了!

  • 2025-02-03
    北京
  • 本文字数:2699 字

    阅读完需:约 9 分钟

大小:1.31M时长:07:37
OpenAI“背水一战”:紧急上线Deep Research,比DeepSeek强三倍?网友直呼AI开源大战要来了!

整理 | 华卫


2 月 3 日,OpenAI 突然举行了一场“惊喜”直播。直播中,OpenAI 宣布,“我们正在推出一项名为深度研究(Deep Research)的功能,这是一个能进行多步骤研究的模型,它可以发现内容、整合内容,并对这些内容进行推理。它甚至会针对你的提示提出‘澄清性’问题,以确保其多步骤研究不偏离方向。”


据介绍,这项深度研究功能将于今日晚些时候在 ChatGPT 专业版中推出,并将逐步应用到 OpenAI 的其他产品中。并且,OpenAI CEO Sam Altman 透露,免费用户也能获得非常少量的使用额度。


紧急推出 Deep Research,还将进一步可视化


4 点 27 分,OpenAI 在 X 上向其 390 万粉丝发布了直播通知。在直播开始前,X 平台的用户分享了他们对即将到来的新功能的反应:“这就像 DeepSeek,但更简洁。”“要是这东西搞砸了,就会深陷麻烦。”“从东京直播?希望这项研究能包含早起的秘诀!”“别费劲了,我们不信任你。”


三个多小时后,OpenAI 开始直播。


据介绍,深度研究功能(Deep Research)是一项全新的智能代理能力,可针对复杂任务在互联网上开展多步骤研究,能在几十分钟内完成人类需要花费数小时才能完成的工作。只需给出提示,ChatGPT 便会查找、分析并综合数百个在线信息源,生成一份达到研究分析师水准的全面报告。


OpenAI 称,这项功能由即将推出的 o3 模型的一个版本驱动,该版本针对网页浏览和数据分析进行了优化,运用推理能力在互联网上搜索、解读和分析海量文本、图像及 PDF 文件,并根据所获取的信息按需灵活调整。


也就是说,深度研究能独立发现、思考并整合来自网络各处的见解。为实现这一点,OpenAI 针对需要使用浏览器和 Python 工具的现实任务进行训练,采用的强化学习方法与其首个推理模型 o1 相同。o1 在编码、数学及其他技术领域展现出令人赞叹的能力,但许多现实世界的难题需要从多样的在线资源中收集大量背景信息。深度研究功能则弥补了这一差距,使其能够处理人们在工作和日常生活中遇到的各类问题。


OpenAI 强调,深度研究功能是为那些在金融、科学、政策及工程等领域从事高强度知识工作,且需要深入可靠研究的人打造的。对于那些在购买需仔细研究的商品时,寻求高度个性化推荐的精明消费者而言,该功能也很有用。


在接下来的几周内,OpenAI 还将在深度研究功能所生成的分析报告中添加嵌入式图片、数据可视化以及其他分析输出,以进一步提升清晰度并提供更多背景信息。在 OpenAI 看来,深度研究功能朝着其开发通用人工智能(AGI)的宏大目标迈出了重要一步。


能力刷新全球最高分,获专业使用者好评


驱动深度研究功能的模型在一系列针对现实问题的公开评估中创下了新高,包括最近发布的“人类终极测试”(Humanity’s Last Exam,HIE)。



在 HIE 上,OpenAI 的深度研究功能刷新了最高分,比 o3-mini 高推理设置分数还高出一倍。据了解,HLE 是一项全球合作项目,问题包括 3000 多个多项选择题和简答题,涵盖从语言学到火箭科学、古典文学到生态学等 100 多个学科,出题人来自 50 个国家 / 地区的 500 多个机构的近 1000 名学科专家,其中大部分是教授、研究人员和研究生学位持有者。


在实际测试中,有不少专业用户表达了对 OpenAI 这项深度研究功能的肯定。一位研究人工智能的沃顿大学教授 Ethan Mollick 将其与谷歌 Gemini 进行对比后表示,谷歌的同类功能只是对众多信息源进行汇总,OpenAI 的功能更像是让一位见解独到(往往近乎博士水准!)的研究人员去追踪线索。



多伦多大学罗特曼学院战略管理副教授、AllDayTA 联合创始人 Kevin A. Bryan 则使用撰写了一篇经济学的论文初稿,对生成内容的评价是:“它仅凭一次指令能做到什么程度呢?说实话,还不错。老实讲,我审阅过的一些论文都比不上它这次的成果。从这一步迈向大幅加快研究进度的阶段,路径已经相当清晰了。”



Bryan 表示,在试用 Operator,以及谷歌和 OpenAI 的深度研究功能后,能够访问受限文档以及大幅优化的 PDF 内文光学字符识别(OCR)功能将具有重大意义。回过头看,那场导致谷歌图书相关功能夭折的诉讼,似乎给人类和科学带来了巨大损害。


第三方团队 every 也分享了他们的测试结果,据其 CEO Dan Shipper 介绍,他们已经使用了几天,通过撰写公司详尽历史、阅读《战争与和平》第一章并分析托尔斯泰对人物的描写和反映的人性观、梳理近期美国上市公司年报找出未披露的财务违规行为、根据几张照片研究并搭配出一整套全新衣橱这几件事,得出了以下结果:


  • 对于求知欲旺盛的人来说,它就像一把强力武器:提出一个问题,它会自主在网络(或你提供的信息源)中搜索,整理出答案。它会通过多个步骤完成这项工作,回复时间在 1 到 30 分钟之间。它会给出经过深入研究的长篇报告,这些报告综合了许多不同信息源的内容,有时篇幅超过一万字。

  • 可以把它想象成一辆双层观光巴士,但你是唯一的乘客,而你游览的“城市”就是人类知识的总和。

  • 当然,它也有局限性:有时它不能完整说明某条信息的来源;目前还没有“停止”按钮,所以如果它偏离方向,你就得重新开始。



顶尖 AI 厂商都将加入开源竞争?


对于 OpenAI 的这次发布,有网友评价道,“想象一下,一款估值数十亿美元的开源产品,却免费满足了客户 95% 的需求。这时候肯定得全体总动员,才能防止投资者彻底恐慌失控。这局面就像划船,可不好应对。”


还有网友认为,“这有点像 20 世纪 90 年代 Linux 与 Windows 的竞争情况。我猜用不了多久,OpenAI、Gemini、Meta 和 Grok 都会推出轻量级开源引擎,供爱好者把玩。实际上,Grok 的引擎已经开源了。”


但据一位 X 平台用户指出,OpenAI 之前就用过“深度研究”这个说法。2024 年 7 月,路透社报道了一份内部文件(经“一位知情人士”证实),其代号为“草莓”,该文件表明 OpenAI 正在研究“类人推理技能”。这位知情人士称,即使在 OpenAI 内部,“草莓”的工作原理也是严格保密的。消息人士称,该文件描述了一个使用“草莓”模型的项目,其目标是让该公司的人工智能不仅能生成问题的答案,还能提前规划,以便可靠地自主浏览互联网,进行 OpenAI 所谓的“深度研究”。据对十几位人工智能研究人员的采访,这是人工智能模型至今尚未实现的。


“草莓”项目曾用名是 Q*,路透社去年报道称,该项目在公司内部已被视为一项突破。知情人士称,OpenAI 希望这项创新能大幅提升其人工智能模型的推理能力,并补充说,“草莓”涉及一种在人工智能模型经过超大型数据集预训练后对其进行处理的特殊方式。


OpenAI 首席执行官奥特曼今年早些时候表示,在人工智能领域,“最重要的进步领域将围绕推理能力展开。”路透社采访的研究人员也表示,推理能力是人工智能实现人类或超人类水平智能的关键。


参考链接:


https://openai.com/index/introducing-deep-research/

2025-02-03 00:003607

评论

发布
暂无评论

代码层走进“百万级”分布式ID设计

得物技术

数据库 缓存 分布式 性能优化 企业号九月金秋榜

拔掉电源会怎样?GaussDB(for Redis)双活让你有备无患

科技怪咖

【CSPO认证】国际Scrum联盟认证导师CST授课 | 全国招生

ShineScrum

CSPO认证

接口测试实战 | Android 高版本无法抓取 HTTPS,怎么办?

霍格沃兹测试开发学社

《低代码发展白皮书(2022年)》&《2022低代码·无代码应用案例汇编》,发布了

华为云开发者联盟

云计算 后端 低代码 开发

测试面试 | 某 BAT 大厂测试开发面试真题与重点解析

霍格沃兹测试开发学社

“云”上交通,“翼”路畅行

天翼云开发者社区

基于 JMeter 完成 Dubbo 接口的测试

霍格沃兹测试开发学社

DevSecOps 安全即代码基础指南

SEAL安全

DevOps DevSecOps 云安全 DevSecOps和敏捷

用GaussDB(for Redis)存画像,推荐业务轻松降本60%

科技怪咖

测试开发基础 | Python 算法与数据结构面试题系列一(附答案)

霍格沃兹测试开发学社

技术分享 | 做为测试,那些必须掌握的测试技术体系

霍格沃兹测试开发学社

技术分享 | 软件测试入门必会-流程管理平台

霍格沃兹测试开发学社

运维理想和现实,你是?

嘉为蓝鲸

运维 AIOPS 故障处理 补丁

华为伙伴暨开发者大会之GaussDB高校行,产教融合持续赋能人才培养

科技怪咖

【CSM认证】9月17-18&24-25日在线周末班 | 全国招生

ShineScrum

CSM

软件测试 | 测试开发 | 接口自动化测试之JSON Schema模式改如何使用?

测吧(北京)科技有限公司

JSON Schema

GaussDB(for Cassandra)新特性发布:Lucene二级索引,让复杂查询更智能

科技怪咖

快应用与原生APP相比,都有哪些优势?

Speedoooo

小程序 移动开发 轻应用 快应用 移动框架

安全可信 | 首批!天翼云通过可信云安全云工作负载保护平台评估

天翼云开发者社区

技术分享 | 一文带你了解测试流程的体系

霍格沃兹测试开发学社

科普达人丨一图看懂镜像

阿里云弹性计算

镜像 ECS

给ShardingSphere提了个PR

艾小仙

Java GitHub 程序员 shardingsp

DeFi+NFT质押置换挖矿系统开发技术方案详情

开发微hkkf5566

MobTech 短信验证使用说明与应用创建

MobTech袤博科技

App sdk 短信验证

测试管理和领导力秘诀,12+ BAT 大厂测试经理的干货经验汇总

霍格沃兹测试开发学社

驭数有道,天翼云TeleDB系列产品全新升级

天翼云开发者社区

3. Docker镜像详解

鱼书

c++ 8月月更

测试面试 | Python 算法与数据结构面试题系列二(附答案)

霍格沃兹测试开发学社

快速开始安装部署ArkID构建IDaaS,轻松拥有标准化用户身份体系

龙归科技

单点登录 Idaas ArkID

测试面试 | 一道大厂算法面试真题,你能答上来吗?(附答案)

霍格沃兹测试开发学社

OpenAI“背水一战”:紧急上线Deep Research,比DeepSeek强三倍?网友直呼AI开源大战要来了!_AI&大模型_华卫_InfoQ精选文章