
OpenAI 发布 gpt-oss-120b 和 gpt-oss-20b 两款开源权重语言模型,专为高性能推理、工具使用和高效部署而设计。这是自 GPT-2 以来 OpenAI 首次完全开放模型权重,基于宽松的 Apache 2.0 开源许可。
gpt-oss-120b 模型采用了专家混合架构,每个词元可激活 51 亿个参数。在核心推理基准测试中,它不仅与专有的 o4-mini 模型表现相当,甚至在某些方面实现了超越,同时能够在单个 80 GB GPU 上高效运行。较小的 gpt-oss-20b 模型可以激活 210 亿参数中的 36 亿个参数,能够在仅配备 16 GB 内存的消费级硬件上运行,适合在设备端进行推理或是用于无需依赖云基础设施的快速迭代场景。
这两款模型支持多种高级应用场景,包括思维链推理、工具使用和结构化输出。开发人员可以根据具体需求灵活配置模型,调整其推理力度,从而在速度和准确性之间取得平衡。
gpt-oss 模型基于 OpenAI 内部 o 系列模型改编的技术进行训练,采用了旋转位置嵌入、分组多查询注意力机制,并支持长达 128k 的上下文长度。它们在编程、健康、数学和智能体基准测试(包括 MMLU、HealthBench、Codeforces 和 TauBench)中表现出色,即使与 o4-mini 和 GPT-4o 等闭源模型相比也毫不逊色。


来源:OpenAI 博客
在发布这些模型时,OpenAI 并未对其思维链(CoT)推理进行直接监督,从而为研究人员提供了研究推理轨迹的机会,以便他们能够深入探究潜在问题,例如偏见或滥用等情况。
为了评估风险,OpenAI 采用生物学和网络安全领域的对抗性数据,对这些模型进行了最坏情况下的微调。即便经过如此高强度的微调,根据 OpenAI 的防范准备框架,这些模型仍未达到高风险能力水平。外部专家评审员的发现为模型的最终发布提供了有力依据。此外,公司还启动了一项奖金池高达 50 万美元的红队测试挑战赛,旨在进一步在现实条件下对这些模型进行全面评估。
这些模型可在 Hugging Face 和多个部署平台上使用。20B 模型可以在仅配备 16 GB 内存的本地计算机上运行。一位 Reddit 用户提出了这样的问题:
这个模型是否可以在不联网的情况下在本地计算机上运行呢?Altman 提到的“高端”最低配置计算机是什么样的配置?
另一位用户澄清道:
下载完成后,无需联网即可运行模型。硬件配置:运行 20B 模型至少需要 16 GB 的内存(显存或系统内存)。配备 16 GB 内存的 MacBook Air 每秒可以处理数十个词元,而现代 GPU 每秒可以处理数百个词元。
微软通过 ONNX Runtime 将 20B 模型的 GPU 优化版本引入 Windows,并通过 Foundry Local 和 VS Code 的 AI 工具包提供支持,进一步降低了开发者使用该模型的门槛。
【声明:本文由 InfoQ 翻译,未经许可禁止转载。】
原文链接:
评论