即刻获取 HarmonyOS应用开发者基础/高级认证 了解详情
写点什么

不发 GPT-5、直接上 GPT-6?曝 OpenAI 新模型代号 Orion,目标“杀死”幻觉

  • 2024-08-30
    北京
  • 本文字数:2833 字

    阅读完需:约 9 分钟

大小:1.33M时长:07:45
不发 GPT-5、直接上 GPT-6?曝 OpenAI 新模型代号 Orion,目标“杀死”幻觉

整理 | 华卫、核子可乐


昨日,有最新消息称,OpenAI 神秘的“草莓”(Strawberry)最早可能在今年秋季发布,并将在该项目的帮助下开发出能力全面超越 GPT-4 的最新大语言模型,其内部代号为 Orion,可以显著推动人工智能领域的发展。


据两名参与该项目的知情人士透露,OpenAI 最早要发布草莓的聊天机器人版本,并会作为 ChatGPT 的一部分功能推出。草莓的增强逻辑与推理能力可以使 AI 系统提前规划并具备深度研究能力,从而为后续能够实现复杂决策和任务执行的更多自主 AI 智能体铺平道路。


此外,草莓预计将负责生成高质量的合成训练数据,借此为 Orion 提供关键助力,这种方法有望减少错误并提高下一代模型的整体性能。


还有网友曝料称,Orion 将是 OpenAl  跳过 GPT-5 直接推出的 GPT-6 版本。



图源 @indigo:https://x.com/indigo11/status/1828565975844733145


GPT-4 继任者“Orion”开发中,目标:没有幻觉


数学是生成式 AI 发展的基础,如果 AI 模型掌握数学能力,将拥有更强的推理能力,甚至可以解决从未见过的数学问题或自发性解决变成问题,媲美人类智慧,而这一点也是目前的大语言模型还无法做到的。


据悉,草莓系统的目的是强化 OpenAI 的模型推理能力,处理复杂科学和数学问题的能力,让大模型不仅能生出答案,还能提前规划,以便自主、可靠浏览网络,进行 OpenAI 定义的深度研究。


知情人士透露,OpenAI 正在使用更大版本的草莓生成提供给 Orion 的训练用数据,这种由 AI 生成的训练数据也被称作“合成数据”(Synthetic Data)。与之前的模型相比,草莓与高质量合成数据的结合有望减少 Orion 的出错几率,有望帮助 OpenAI 提升获取高品质数据的能力。有研究表明,高质量数据正是打造强大且高效的 AI 模型的关键前提。


前不久,OpenAI 首席执行官 Sam Altman 的确公开强调了高质量数据对于训练 AI 模型的重要性。当时,Altman 还透露,目前 OpenAI 已有足够的数据来训练 GPT-4 之后的下一个模型,同时也在尝试使用合成数据。


对此,Minion AI 的首席执行官、GitHub Copilot 的前首席架构师 Alex Graveley 表示,使用草莓产生更高质量的训练数据可以帮助 OpenAI 减少其模型产生的错误数量,也就是所谓的 AI 幻觉(Hallucination)。“想象一下‘没有幻觉的模型’,你问它一个逻辑难题,它第一次就答对了。之所以能够做到这一点,是因为训练数据中的模糊性更少,因此它的猜测更少。”Graveley 进一步解释。


草莓模型已向美国官员展示,完整版不对外开放


草莓项目的前身为 Q*,自去年秋天开始流传 OpenAI 可能取得更大突破以来,就一直是 AI 社区的猜测话题。当时据说, Q* 能够解决棘手的科学和数学问题,并很快被贴上了秘密 AGI 项目的标签。之后,Altman 又间接证实了 Q* 的存在,对外称这是一次 “不幸的泄密”。


知情人士表示,草莓旨在解决大模型以往未曾见过的数学问题并优化编程任务,其增强逻辑还有望使其在拥有充足“思考”时间的情况下,更加有效地解决与语言相关的挑战。


在内部演示中,草莓成功拼出了《纽约时报》上刊登的字谜“Connections”。该模型还可为其他更先进的 AI 系统提供支撑,帮助其在生成内容的同时还可采取操作行动。OpenAI 还在内部文件中描述了使用草莓模型实现互联网自主搜索的计划,希望让 AI 掌握提前规划和深入研究的能力。


此外,之前有外媒报道,OpenAI 已经对一款在 MATH 基准测试中得分超过 90% 的 AI 模型进行了内测。MATH 基准测试是一系列冠军级数学问题,包含高中生和大学生数学竞赛的问题,被视作衡量 AI 系统在解决复杂数学问题方面的性能基准。相比之下,最初的 GPT-4 得分约为 53%,而 GPT-4o 的得分为 76.6%。


而最新消息称,这一分数高于 90% 的模型很可能就是草莓,今年夏天 OpenAI 还向美国国家安全官员展示了草莓模型。考虑到安全问题,这款强大的模型不直接对公众提供服务,以防止被美国限制的国家拿它来合成数据训练更强大的模型。


OpenAI 会在草莓的基础上提供一个更小的蒸馏版对外提供服务,这样部署成本也更低,完整的草莓会被该公司内部用来生成高质量的合成数据。有网友评价道,“好货当然先留给自己用,确保竞争对手与自己有隔代差别。”也有网友猜测,“肉眼可见 OpenAI 需要靠美国政府提供资金了,因为已经无法从市场上筹集到足够的资金了。”


另值得一提的是,草莓系统的诞生与 OpenAI 前首席科学家 Ilya Sutskever 和斯坦福大学都有所关联。


据说,草莓这个项目算是由 Ilya 启动的,也是他为草莓提供了设计思路和基础。在他离开之前,OpenAI 的研究人员 Jakub Pachocki 和 Szymon Sidor 基于 Sutskever 的工作开发了 Q*。现在他出走并建立自己的初创企业 Safe SuperIntelligence,专注于开发更安全的超级 AI。


在 Q* 的研究过程中,OpenAI 的研究人员开发了一种被称为「测试时计算」(test-time computation)的概念变体,该方法使模型有机会花更多时间考虑用户命令或问题的所有部分,旨在提升大语言模型的解题能力。当时,Ilya 还发表了一篇围绕相关成果的博客文章。


还有报道指出,草莓系统与斯坦福大学研究人员提出的“自学推理机”(STaR)方法有着相似之处,都旨在提高人工智能的推理和问题解决能力,使其超越 GPT-4 等现有语言模型所能达到的水平。


思路上,这两种方法都是教人工智能一步一步地 “推理 ”或 “思考”来得出更好的解决方案,Quiet-STaR 教语言模型生成并学习在文本中任何位置继续的可能理由,而 Q* 则旨在将语言模型与规划算法相结合。另一个类似的方面是测试时计算(test-time computation)的重要性:无论是在 Quiet-STaR 还是在 Q* 中,都是人工智能思考的时间越长,结果就越好。


据悉,草莓模型是否会在今年年内推出尚不确定,但最初发布的应该是原始模型的精简版本,强调以更少的算力消耗提供类似的性能。自 2023 年 3 月原始模型发布以来,OpenAI 也曾利用这项技术降低 GPT-4 各变体的运行门槛。


结语


按照 OpenAI 的猜想,未来 AI 会经历聊天机器人(具有对话语言的人工智能)、推理者(人类水平的问题解决)、代理者(可以采取行动的系统)、创新者(可协助发明的人工智能)、组织者(可以完成组织工作的人工智能)共 5 个阶段,而草莓系统极有可能是帮助其实现第二级 AI(推理者,人类层级的问题解决)的关键。


由于推理能力限制,目前 AI 技术在诸如航天、结构工程之类的数学密集型行业中并没有广泛应用。因此,大模型数学推理能力的最佳化成为普及 AI 应用的必备条件,也是 AI 公司进一步提升获利能力的必经之路。


谷歌 DeepMind 同样在研究具备高级数学能力的 AI 系统。他们先后开发出 AlphaProof 与 ALphaGeometry 2,后者还在国际数学奥林匹克竞赛中斩获银牌。然而,目前仍不清楚这些模型的扩展与推广效果究竟如何。


参考链接:


https://the-decoder.com/openais-strawberry-ai-is-reportedly-the-secret-sauce-behind-next-gen-orion-language-model/


https://www.theinformation.com/articles/openai-shows-strawberry-ai-to-the-feds-and-uses-it-to-develop-orion


https://news.cnyes.com/news/id/5698787

2024-08-30 14:528306

评论

发布
暂无评论

如何使用物联网低代码平台进行系统管理?

AIRIOT

物联网 低代码开发 低代码开发平台

百度评论中台的设计与探索

百度Geek说

云原生中间件 — Kafka Operator 总览篇

Daocloud 道客

云原生 开源项目 消息中间件 上云 Strimzi Kafka Operator

数字先锋| 助力打造国有资本运营升级版 中国国新构建数字化转型新格局

天翼云开发者社区

企业如何建设知识管理系统

小炮

K8S集群无法通过Service Name访问的故障

领创集团Advance Intelligence Group

Python接口自动化核心模块 - 数据库操作和日志

伤心的辣条

程序员 程序人生 软件测试 接口测试 Python自动化测试

安心+10000

天翼云开发者社区

实战邮件攻击简要分析【网络安全】

网络安全学海

网络安全 安全 渗透测试 WEB安全 漏洞挖掘

资金穿透分析

清林情报分析师

数据分析 分析软件 分析工具 资金穿透 资金分析

【ELT.ZIP】OpenHarmony啃论文俱乐部—gpu上高效无损压缩浮点数

ELT.ZIP

鸿蒙 压缩算法 Openharmony啃论文俱乐部 ndzip

常见线程数量的估算方式

snlfsnef

系统设计 线程 多CPU

外呼机器人7大难题,看网易云商如何攻破?

网易智企

AI 机器人

从小白到架构师原来是这样修炼出来的

C++后台开发

架构师 C++后台开发 软件架构师 服务器架构师 C++架构师

详解MOVE PROTOCOL的测试版,让健康运动如影随形

西柚子

什么是数据流向分析?

清林情报分析师

数据分析 流向分析 数据流向 资金流向 可视化分析

漫谈软件架构

韩陆

云原生 领域驱动设计 可观测性 软件架构 事件驱动架构

小程序开发真的可以取代APP软件开发设计吗?

开源直播系统源码

软件开发 小程序开发

What are the uses of LED display?

Dylan

LED LED display

数字先锋 | 牵手中资医疗医药,开创医疗医药应急保障服务新格局

天翼云开发者社区

【ELT.ZIP】OpenHarmony啃论文俱乐部—一种深度神经网压缩算法

ELT.ZIP

OpenHarmony 压缩算法 ELT.ZIP 啃论文俱乐部 深度神经网

天翼云电脑打造极致流畅与安全 助企业数字办公升级

天翼云开发者社区

BI的落寞,低代码会重演一遍吗?

ToB行业头条

单线程性能炸裂 英特尔以Sapphire Rapids强势角逐AI计算市场

科技之家

EMQ作为首批创始会员单位,加入SAP可持续发展与实践战略联盟

EMQ映云科技

物联网 IoT SAP emq 6月月更

【ELT.ZIP】OpenHarmony啃论文俱乐部—硬件加速的快速无损压缩

ELT.ZIP

OpenHarmony 压缩算法 ELT.ZIP 啃论文俱乐部

云原生存储解决方案Rook-Ceph与Rainbond结合的实践

北京好雨科技有限公司

Kubernetes PaaS Ceph rainbond

【赛事预告】云上开发,高效智能——第二届阿里云ECS CloudBuild开发者大赛即将启动

阿里云弹性计算

开发者大赛 自动化运维 云上运维 机密计算 内存缓存

不愧是美团内部“接口自动化测试学习笔记”这细节讲解,神了

伤心的辣条

Python 程序人生 软件测试 自动化测试 接口测试

天翼云为欧拉社区贡献首个C++热补丁 加速推进联创技术落地应用

天翼云开发者社区

LoadBalance

Damon

6月月更

不发 GPT-5、直接上 GPT-6?曝 OpenAI 新模型代号 Orion,目标“杀死”幻觉_生成式 AI_华卫_InfoQ精选文章