写点什么

OpenAI“背水一战”:紧急上线 Deep Research,比 DeepSeek 强三倍?网友直呼 AI 开源大战要来了!

  • 2025-02-03
    北京
  • 本文字数:2699 字

    阅读完需:约 9 分钟

大小:1.31M时长:07:37
OpenAI“背水一战”:紧急上线Deep Research,比DeepSeek强三倍?网友直呼AI开源大战要来了!

整理 | 华卫


2 月 3 日,OpenAI 突然举行了一场“惊喜”直播。直播中,OpenAI 宣布,“我们正在推出一项名为深度研究(Deep Research)的功能,这是一个能进行多步骤研究的模型,它可以发现内容、整合内容,并对这些内容进行推理。它甚至会针对你的提示提出‘澄清性’问题,以确保其多步骤研究不偏离方向。”


据介绍,这项深度研究功能将于今日晚些时候在 ChatGPT 专业版中推出,并将逐步应用到 OpenAI 的其他产品中。并且,OpenAI CEO Sam Altman 透露,免费用户也能获得非常少量的使用额度。


紧急推出 Deep Research,还将进一步可视化


4 点 27 分,OpenAI 在 X 上向其 390 万粉丝发布了直播通知。在直播开始前,X 平台的用户分享了他们对即将到来的新功能的反应:“这就像 DeepSeek,但更简洁。”“要是这东西搞砸了,就会深陷麻烦。”“从东京直播?希望这项研究能包含早起的秘诀!”“别费劲了,我们不信任你。”


三个多小时后,OpenAI 开始直播。


据介绍,深度研究功能(Deep Research)是一项全新的智能代理能力,可针对复杂任务在互联网上开展多步骤研究,能在几十分钟内完成人类需要花费数小时才能完成的工作。只需给出提示,ChatGPT 便会查找、分析并综合数百个在线信息源,生成一份达到研究分析师水准的全面报告。


OpenAI 称,这项功能由即将推出的 o3 模型的一个版本驱动,该版本针对网页浏览和数据分析进行了优化,运用推理能力在互联网上搜索、解读和分析海量文本、图像及 PDF 文件,并根据所获取的信息按需灵活调整。


也就是说,深度研究能独立发现、思考并整合来自网络各处的见解。为实现这一点,OpenAI 针对需要使用浏览器和 Python 工具的现实任务进行训练,采用的强化学习方法与其首个推理模型 o1 相同。o1 在编码、数学及其他技术领域展现出令人赞叹的能力,但许多现实世界的难题需要从多样的在线资源中收集大量背景信息。深度研究功能则弥补了这一差距,使其能够处理人们在工作和日常生活中遇到的各类问题。


OpenAI 强调,深度研究功能是为那些在金融、科学、政策及工程等领域从事高强度知识工作,且需要深入可靠研究的人打造的。对于那些在购买需仔细研究的商品时,寻求高度个性化推荐的精明消费者而言,该功能也很有用。


在接下来的几周内,OpenAI 还将在深度研究功能所生成的分析报告中添加嵌入式图片、数据可视化以及其他分析输出,以进一步提升清晰度并提供更多背景信息。在 OpenAI 看来,深度研究功能朝着其开发通用人工智能(AGI)的宏大目标迈出了重要一步。


能力刷新全球最高分,获专业使用者好评


驱动深度研究功能的模型在一系列针对现实问题的公开评估中创下了新高,包括最近发布的“人类终极测试”(Humanity’s Last Exam,HIE)。



在 HIE 上,OpenAI 的深度研究功能刷新了最高分,比 o3-mini 高推理设置分数还高出一倍。据了解,HLE 是一项全球合作项目,问题包括 3000 多个多项选择题和简答题,涵盖从语言学到火箭科学、古典文学到生态学等 100 多个学科,出题人来自 50 个国家 / 地区的 500 多个机构的近 1000 名学科专家,其中大部分是教授、研究人员和研究生学位持有者。


在实际测试中,有不少专业用户表达了对 OpenAI 这项深度研究功能的肯定。一位研究人工智能的沃顿大学教授 Ethan Mollick 将其与谷歌 Gemini 进行对比后表示,谷歌的同类功能只是对众多信息源进行汇总,OpenAI 的功能更像是让一位见解独到(往往近乎博士水准!)的研究人员去追踪线索。



多伦多大学罗特曼学院战略管理副教授、AllDayTA 联合创始人 Kevin A. Bryan 则使用撰写了一篇经济学的论文初稿,对生成内容的评价是:“它仅凭一次指令能做到什么程度呢?说实话,还不错。老实讲,我审阅过的一些论文都比不上它这次的成果。从这一步迈向大幅加快研究进度的阶段,路径已经相当清晰了。”



Bryan 表示,在试用 Operator,以及谷歌和 OpenAI 的深度研究功能后,能够访问受限文档以及大幅优化的 PDF 内文光学字符识别(OCR)功能将具有重大意义。回过头看,那场导致谷歌图书相关功能夭折的诉讼,似乎给人类和科学带来了巨大损害。


第三方团队 every 也分享了他们的测试结果,据其 CEO Dan Shipper 介绍,他们已经使用了几天,通过撰写公司详尽历史、阅读《战争与和平》第一章并分析托尔斯泰对人物的描写和反映的人性观、梳理近期美国上市公司年报找出未披露的财务违规行为、根据几张照片研究并搭配出一整套全新衣橱这几件事,得出了以下结果:


  • 对于求知欲旺盛的人来说,它就像一把强力武器:提出一个问题,它会自主在网络(或你提供的信息源)中搜索,整理出答案。它会通过多个步骤完成这项工作,回复时间在 1 到 30 分钟之间。它会给出经过深入研究的长篇报告,这些报告综合了许多不同信息源的内容,有时篇幅超过一万字。

  • 可以把它想象成一辆双层观光巴士,但你是唯一的乘客,而你游览的“城市”就是人类知识的总和。

  • 当然,它也有局限性:有时它不能完整说明某条信息的来源;目前还没有“停止”按钮,所以如果它偏离方向,你就得重新开始。



顶尖 AI 厂商都将加入开源竞争?


对于 OpenAI 的这次发布,有网友评价道,“想象一下,一款估值数十亿美元的开源产品,却免费满足了客户 95% 的需求。这时候肯定得全体总动员,才能防止投资者彻底恐慌失控。这局面就像划船,可不好应对。”


还有网友认为,“这有点像 20 世纪 90 年代 Linux 与 Windows 的竞争情况。我猜用不了多久,OpenAI、Gemini、Meta 和 Grok 都会推出轻量级开源引擎,供爱好者把玩。实际上,Grok 的引擎已经开源了。”


但据一位 X 平台用户指出,OpenAI 之前就用过“深度研究”这个说法。2024 年 7 月,路透社报道了一份内部文件(经“一位知情人士”证实),其代号为“草莓”,该文件表明 OpenAI 正在研究“类人推理技能”。这位知情人士称,即使在 OpenAI 内部,“草莓”的工作原理也是严格保密的。消息人士称,该文件描述了一个使用“草莓”模型的项目,其目标是让该公司的人工智能不仅能生成问题的答案,还能提前规划,以便可靠地自主浏览互联网,进行 OpenAI 所谓的“深度研究”。据对十几位人工智能研究人员的采访,这是人工智能模型至今尚未实现的。


“草莓”项目曾用名是 Q*,路透社去年报道称,该项目在公司内部已被视为一项突破。知情人士称,OpenAI 希望这项创新能大幅提升其人工智能模型的推理能力,并补充说,“草莓”涉及一种在人工智能模型经过超大型数据集预训练后对其进行处理的特殊方式。


OpenAI 首席执行官奥特曼今年早些时候表示,在人工智能领域,“最重要的进步领域将围绕推理能力展开。”路透社采访的研究人员也表示,推理能力是人工智能实现人类或超人类水平智能的关键。


参考链接:


https://openai.com/index/introducing-deep-research/

2025-02-03 00:003521

评论

发布
暂无评论

GrowingIO 数据安全实践

GrowingIO技术专栏

隐私保护 数据安全 隐私安全 数据安全法

Android 音视频 - EGL 源码解析以及 C++ 实现

声网

android 音视频 OpenGL ES

kotlin库,大佬带你看源码

android 程序员 移动开发

kotlin开发网站,字节跳动大神讲座

android 程序员 移动开发

RTE2021 实时互联网大会参会感想

轻口味

1024我在现场 10月月更

打造价值交付体系,企业 CIO 如何应对 DevOps 命题?

BoCloud博云

DevOps 云原生

EMQ 在2021电力人工智能大会:稳健数据基础设施架构支撑电力数字化发展

EMQ映云科技

人工智能 物联网 电力 mqtt

自定义View:resolveSizeAndState方法

Changing Lin

10月月更

华为云企业级Redis:助力VMALL打造先进特征平台

华为云数据库小助手

GaussDB GaussDB ( for Redis ) 华为云数据库

ironSource 斩获 2021 年度鲸鸣奖三大重量级奖项

开源应用中心 | KodBox快捷高效的私有云在线文档管理系统

开源技术

硝烟弥漫的安全战场,只等一位超级英雄登场

白洞计划

Python爬虫实战 | 利用多线程爬取 LOL 高清壁纸

JackTian

Python 程序员 爬虫 后端 实战

各位Oracle DBA们,你们期待的在线实训环境终于来了

墨天轮

MySQL 数据库 oracle redis 实训

喜大普奔!BFE 控制平面正式开源发布!

百度开发者中心

负载均衡 云原生 Go 语言 开源技术

3面蚂蚁,一路过关斩将 成功拿到offer定级P6,大厂面试雀食有点难!

进击的王小二

java面试 大厂面试 阿里巴巴面经总结 java

来,肝了这份网络安全学习计划无敌

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 学习安全

kotlin实现接口,已开源下载

android 程序员 移动开发

华为全球首发《全光自动驾驶网络白皮书》,助力打造品质联接新体验

EMQ 映云科技5G 边缘计算工业解决方案获中国移动创客马拉松大赛三等奖

EMQ映云科技

5G 物联网 边缘计算 移动互联网

端智能研发核心套件:MNN 工作台深度剖析

阿里巴巴终端技术

深度学习 ios android 移动端 端智能

[架构实战营] 模块一作业

张祥

架构实战营

揭秘!探访百度AI反诈第一线

脑极体

从区块链到元宇宙 Metaverse

devpoint

区块链 元宇宙 10月月更

5面阿里斩获offer(Java岗),原来阿里面试官总喜欢问这种问题

进击的王小二

Java java面试 大厂面试

面试官:如何防止 Java 源码被反编译?我竟然答不上来。。

Java 编程 程序员 架构 面试

以“有用”为圆心:重新认识智慧城市的“高手之路”

脑极体

从芯片公司到VR,字节跳动为了元宇宙加码布局

海比研究院

技术干货 | 闲鱼:一个优秀的 Push 平台,需要经历怎样的前世今生

蚂蚁集团移动开发平台 mPaaS

消息推送 push mPaaS

企业系统太多?WorkPlus让工作事半功倍

BeeWorks

产业数字化的思考

Geek_vidmje

OpenAI“背水一战”:紧急上线Deep Research,比DeepSeek强三倍?网友直呼AI开源大战要来了!_AI&大模型_华卫_InfoQ精选文章