AICon 深圳站 Keynote 嘉宾官宣!共探AI价值转化的实践路径 了解详情
写点什么

Claude 小升级就赢了 OpenAI 9 年“开源神作”?高强度推理直接歇菜、幻觉率高达 50%,写作还被 Kimi 2 吊锤?

  • 2025-08-12
    北京
  • 本文字数:2790 字

    阅读完需:约 9 分钟

大小:1.41M时长:08:12
Claude 小升级就赢了OpenAI 9年“开源神作”?高强度推理直接歇菜、幻觉率高达50%,写作还被Kimi 2吊锤?

整理 |华卫


刚刚,OpenAI 发布了首个开源语言模型系列 gpt-oss,包括 gpt-oss-120b 和 gpt-oss-20b 两款语言模型:完全可定制,提供完整的思维链(CoT)并支持结构化输出。


现在,gpt-oss-120b 和 gpt-oss-20b 的权重均可在 Hugging Face 上免费下载,且它们原生采用 MXFP4 量化格式。这使得 gpt-oss-120B 模型可在 80GB 内存内运行,而 gpt-oss-20b 仅需 16GB 内存。


下载链接:https://huggingface.co/collections/openai/gpt-oss-68911959590a1634ba11c7a4


Github 地址:https://github.com/openai/gpt-oss


值得一提的是,几乎与 gpt-oss 开源同时,谷歌 Deepmind 宣布推出 Genie 3 ,Anthropic 放出了 Claude Opus 4.1。有网友感叹,“我们生活在什么样的时代。”马斯克也转发了这条帖子,并配了意味深长的词和表情。



Claude Opus4.1 的最大亮点在于编程性能提升。在 SWE-bench Verified 编程评测中,其表现高达 74.5%。GitHub 上的开发者们普遍认为 Opus4.1 在多文件代码重构等任务上表现优于其前代。此外,新模型的无害回复率也从上代 97.27 % 提升到了 98.76 %。


有用户第一时间将 Claude Opus 4.1 与 OpenAI 的 gpt-oss 进行了编码能力方面的对比,实测结果是 Claude Opus 4.1 最强且“出乎意料地稳”。此外,其提到,gpt-oss-120b 用起来要谨慎,写代码特别不稳定;gpt-oss-20b 反而效果挺好。


训练过程全公开,采用技术对齐先进推理模型


据悉,gpt-oss 模型系列的训练结合了强化学习以及借鉴 OpenAI 最先进内部模型(包括 o3 和其他前沿系统)的技术,能以低成本实现强大的实际性能。


“gpt-oss 模型采用我们最先进的预训练和后训练技术进行训练,特别注重推理能力、效率以及在各种部署环境中的实际可用性。”


OpenAI 指出,每个模型都是一个 Transformer,利用混合专家(MoE[2])来减少处理输入所需的活跃参数数量。gpt-oss-120b 每个令牌激活 51 亿个参数,而 gpt-oss-20b 每个令牌激活 36 亿个参数,两款模型分别拥有 1170 亿和 210 亿个总参数。


这些模型采用交替的密集型和局部带状稀疏注意力模式,类似于 GPT-3。为提高推理和内存效率,这些模型还使用分组多查询注意力,组大小为 8。其使用旋转位置嵌入(RoPE[4])进行位置编码,原生支持长达 128k 的上下文长度。


两款模型的后训练过程与 o4-mini 类似,包括有监督微调阶段和高计算量的强化学习阶段。OpenAI 表示,其目标是使模型与 OpenAI 模型规范对齐,并训练其在生成答案前应用思维链推理和工具使用能力。“通过采用与我们最先进的专有推理模型相同的技术,这些模型在后训练后展现出卓越的能力。”


与 API 中的 OpenAI o 系列推理模型类似,这两款开源模型支持低、中、高三种推理力度,可在延迟和性能之间进行权衡,开发者只需在系统消息中用一句话即可设置推理强度。


此外,OpenAI 在以英语为主的纯文本数据集上训练这些模型,重点涵盖 STEM、编程和通用知识领域。使用的分词器是用于 OpenAI o4-mini 和 GPT-4o 的分词器的超集——o200k_harmony,目前该分词器也同步开源了。


据介绍,这些模型基于灵活的 Apache 2.0 许可证发布,在推理任务上的表现优于同规模的开源模型,展现出强大的工具使用能力,并且经过优化,可在消费级硬件上高效部署。


其中,gpt-oss-120b 模型在核心推理基准测试上的表现接近 OpenAI o4-mini,同时能在单块 80GB GPU 上高效运行。gpt-oss-20b 模型在常见基准测试中的结果与 OpenAI o3-mini 相近,且仅需 16GB 内存就能在边缘设备上运行,非常适合设备端使用场景、本地推理或无需昂贵基础设施的快速迭代。


在工具使用、少样本函数调用、思维链推理(从 Tau-Bench 智能体评估套件的结果中可看出)和 HealthBench 方面,这两款模型也表现出色,甚至超过了 OpenAI o1 和 GPT-4o 等专有模型。


OpenAI 称,两款开源模型与其响应 API 兼容,可设计用于智能体工作流,具有出色的指令遵循能力、工具使用能力(如网页搜索或 Python 代码执行)和推理能力,还能够为不需要复杂推理或以极低延迟的最终输出为目标的任务调整推理强度。


得分不如 DeepSeek R1,实测效果槽点多多?


此前 OpenAI 已经公开了包括 Whisper 和 CLIP 在内的其他模型,但 gpt-oss 模型是自 GPT-2 以来其推出的首批开源语言模型。


吴恩达第一时间评价道,“从我的快速测试来看,gpt-oss-120b 看起来非常强大。”还有网友表示,“这可能是 OpenAI 第一次不辜负它的名字。”



不过,Artificial Analysis 发布的测试结果是:“对 OpenAI 的 gpt-oss 模型的独立基准测试显示,gpt-oss-120b 是美国最智能的开源模型,其智能水平虽落后于 DeepSeek R1 和 Qwen3 235B,但在效率方面具有优势。”


具体来说,尽管 gpt-oss-120b 在得分上未能超过 DeepSeek R1 0528 的 59 分和 Qwen3 235B 2507 的 64 分,但其总参数和活跃参数数量均远小于这两款模型。DeepSeek R1 的总参数为 6710 亿,活跃参数为 370 亿,且原生以 FP8 精度发布,这使其总文件大小(及内存需求)是 gpt-oss-120b 的 10 倍以上。



还有网友指出,“经过九年的研发,OpenAI 发布了一款性能不及 xAI 初始模型之一的开源产品,而 xAI 成立仅两年时间。”但对此,也有其他网友反驳道,“OpenAI 的 gpt-oss 并非其旗舰模型,而是一个开源版本,将其与 Grok 进行比较具有误导性。”



另值得注意的是,OpenAI 的开源语言模型似乎比其最新的 AI 推理模型 o3 和 o4-mini 产生幻觉的程度还要高得多。


OpenAI 发现,在 PersonQA(该公司用于衡量模型对人类认知准确度的内部基准)上,gpt-oss-120b 和 gpt-oss-20b 在回答问题时分别产生了 49% 和 53% 的幻觉。这比 OpenAI o1 模型(得分为 16%)的幻觉率高出三倍多,也高于其 o4-mini 模型(得分为 36%)。


根据 OpenAI 的内部测试,o3 和 o4-mini 已经比该公司之前的推理模型 o1、o1-mini 和 o3-mini 以及 OpenAI 传统的“非推理”模型(如 GPT-4o)产生幻觉的频率都更高。该公司此前曾表示,尚不清楚具体原因。但 OpenAI 在一份白皮书中表示,这是“意料之中的,因为小型模型的世界知识比大型前沿模型更少,更容易产生幻觉。”


有网友表示,“完全没有任何实用性的模型,估计是只用了大模型输出的跑分测试的合成数据进行训练,这也能拿的出手吗?”


而 gpt-oss 的实测效果似乎也差强人意。一位用户表示,他从初步测试中发现了不少 gpt-oss 的缺点,包括以下方面:


  • 创意写作不行,比 Kimi 2、o3 差远了。

  • Tau-Bench 基准测试显示,gpt-oss-20b 在工具调用可靠性方面明显逊色(54.8 分),而 120b(67.8 分)与 o3(70.4 分)不相上下,这有点可惜。

  • 高强度推理模式实际上根本没用,它经常陷入近乎无限的循环并超时,要么就是用户自己先耗不下去了。


参考链接:


https://openai.com/index/introducing-gpt-oss/


https://techcrunch.com/2025/08/05/openai-launches-two-open-ai-reasoning-models/?utm_source=chatgpt.com


声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。


2025-08-12 18:0410

评论

发布
暂无评论

TDSQL分布式数据库的架构与解耦

腾讯云数据库

数据库 tdsql

声网发布在线K歌房解决方案,提供一站式接入版权曲库与K歌组件

ToB行业头条

声网

☕【Java技术指南】「并发编程专题」Fork/Join框架基本使用和原理探究(基础篇)

码界西柚

Java forkjoin forkjoinpool 9月日更

TDSQL分布式数据库的HDFS和LOCAL备份配置

腾讯云数据库

数据库 tdsql

TDSQL水平扩容背后的设计原理

腾讯云数据库

数据库 tdsql

【VueRouter 源码学习】第八篇 - $route、$router 与 router-link 组件的实现

Brave

源码 vue-router 9月日更

联想TruScale服务定义IT服务新标准,助力中国企业全面抢滩智能化

科技范儿

WGCLOUD新特性,新增指令下发批量执行能力

王逅逅

DevOps Grafana #zabbix linux面板 linux监测

Golang: 如何使用正则表达式,并实战爬取手机号

Regan Yue

正则表达式 爬虫 Go 语言 9月日更

数据脱敏是什么意思?有什么好处?

行云管家

数据库 数据安全 数据脱敏 数据库安全

深入理解rtmp(二)之C++脚手架搭建

轻口味

android 音视频 直播 RTMP 9月日更

一次带宽拉满引发的百分百超时血案!

Gopher指北

Go 语言

官方披露 TDSQL 十年自主可控之路

腾讯云数据库

数据库 tdsql

OceanBase 数据库大赛“推荐官招募令”,做推荐官,让优秀选手C位出道!

OceanBase 数据库

数据库 比赛 oceanbase OceanBase 开源 OceanBase 数据库大赛

海量数据,极速体验——TDSQL-A技术核心架构02

腾讯云数据库

数据库 tdsql

亿级流量下平滑扩容:TDSQL水平扩容 VS 垂直扩容

腾讯云数据库

数据库 tdsql

TDSQL的分布式事务处理技术:高效的分布式事务双一致性

腾讯云数据库

数据库

一分钟带你了解Huawei LiteOS组件开发指南

华为云开发者联盟

curl 内核 组件 Huawei LiteOS 组件开发

数据库连接池

邱学喆

你知道线程池是如何退出程序的吗?

华为云开发者联盟

线程 高并发 线程池 任务队列

C语言中动态内存是如何分配的?

华为云开发者联盟

数组 内存 动态内存 内存分配 C语音

计算机工业的生态链(二)

姬翔

9月日更

TDSQL(MySQL版)之DB组件升级

腾讯云数据库

数据库 tdsql

tcpdump 抓包与 scapy 解析(qbit)

qbit

udp TCP/IP tcpdump

代码工具:VSCode

正向成长

vscode

观测未来,携手同行!驻云诚邀您参加2021 OSCAR 开源产业大会!文末报名福利!

观测云

开源 可观测

云随想一:企业为什么要上云?

FLASH

原生云

海量数据,极速体验——TDSQL-A技术核心架构01

腾讯云数据库

数据库 tdsql

TDSQL水平扩容实践案例

腾讯云数据库

数据库 tdsql

揭秘超分辨率的正确打开方式

OpenIM

NDK-原生 API

Changing Lin

9月日更

Claude 小升级就赢了OpenAI 9年“开源神作”?高强度推理直接歇菜、幻觉率高达50%,写作还被Kimi 2吊锤?_AI&大模型_华卫_InfoQ精选文章