写点什么

OpenAI 开放 gpt-oss-120b 和 gpt-oss-20b 模型权重,可在本地部署

作者:Robert Krzaczyński

  • 2025-08-11
    北京
  • 本文字数:1092 字

    阅读完需:约 4 分钟

大小:558.40K时长:03:10
OpenAI开放gpt-oss-120b和gpt-oss-20b模型权重,可在本地部署

OpenAI 发布 gpt-oss-120b 和 gpt-oss-20b 两款开源权重语言模型,专为高性能推理、工具使用和高效部署而设计。这是自 GPT-2 以来 OpenAI 首次完全开放模型权重,基于宽松的 Apache 2.0 开源许可。


gpt-oss-120b 模型采用了专家混合架构,每个词元可激活 51 亿个参数。在核心推理基准测试中,它不仅与专有的 o4-mini 模型表现相当,甚至在某些方面实现了超越,同时能够在单个 80 GB GPU 上高效运行。较小的 gpt-oss-20b 模型可以激活 210 亿参数中的 36 亿个参数,能够在仅配备 16 GB 内存的消费级硬件上运行,适合在设备端进行推理或是用于无需依赖云基础设施的快速迭代场景。


这两款模型支持多种高级应用场景,包括思维链推理、工具使用和结构化输出。开发人员可以根据具体需求灵活配置模型,调整其推理力度,从而在速度和准确性之间取得平衡。


gpt-oss 模型基于 OpenAI 内部 o 系列模型改编的技术进行训练,采用了旋转位置嵌入、分组多查询注意力机制,并支持长达 128k 的上下文长度。它们在编程、健康、数学和智能体基准测试(包括 MMLU、HealthBench、Codeforces 和 TauBench)中表现出色,即使与 o4-mini 和 GPT-4o 等闭源模型相比也毫不逊色。



来源:OpenAI 博客


在发布这些模型时,OpenAI 并未对其思维链(CoT)推理进行直接监督,从而为研究人员提供了研究推理轨迹的机会,以便他们能够深入探究潜在问题,例如偏见或滥用等情况。


为了评估风险,OpenAI 采用生物学和网络安全领域的对抗性数据,对这些模型进行了最坏情况下的微调。即便经过如此高强度的微调,根据 OpenAI 的防范准备框架,这些模型仍未达到高风险能力水平。外部专家评审员的发现为模型的最终发布提供了有力依据。此外,公司还启动了一项奖金池高达 50 万美元的红队测试挑战赛,旨在进一步在现实条件下对这些模型进行全面评估。


这些模型可在 Hugging Face 和多个部署平台上使用。20B 模型可以在仅配备 16 GB 内存的本地计算机上运行。一位 Reddit 用户提出了这样的问题

这个模型是否可以在不联网的情况下在本地计算机上运行呢?Altman 提到的“高端”最低配置计算机是什么样的配置?


另一位用户澄清道:

下载完成后,无需联网即可运行模型。硬件配置:运行 20B 模型至少需要 16 GB 的内存(显存或系统内存)。配备 16 GB 内存的 MacBook Air 每秒可以处理数十个词元,而现代 GPU 每秒可以处理数百个词元。


微软通过 ONNX Runtime 将 20B 模型的 GPU 优化版本引入 Windows,并通过 Foundry Local 和 VS Code 的 AI 工具包提供支持,进一步降低了开发者使用该模型的门槛。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


原文链接:

https://www.infoq.com/news/2025/08/openai-gpt-oss/

2025-08-11 14:554224

评论

发布
暂无评论

java8实战读书笔记:初识Stream、流的基本操作,nginx架构原理

Java 程序员 后端

JavaFx:窗口切换和ListView以及TableView的值绑定,docker面试题

Java 程序员 后端

JavaWeb之Servlet技术(二),java基础程序设计题

Java 程序员 后端

Java垃圾回收机制小结以及优化建议,kafka的工作原理图

Java 程序员 后端

Java-进阶:集合框架1,java三个技术平台

Java 程序员 后端

Java中的几种阻塞队列,kalilinux渗透教程

Java 程序员 后端

Java中高级核心知识全面解析——Dubbo,kafka入门到精通文档

Java 程序员 后端

Java使用JDBC开发 之 DBCP连接池,保洁阿姨看完都会了

Java 程序员 后端

java反射map转实体类 实体转map,微服务架构的优缺点

Java 程序员 后端

Java中的Type类型详解,javase菜鸟教程

Java 程序员 后端

JavaWeb Ajax详解,linux操作系统基础教程安俊秀课后答案

Java 程序员 后端

JavaWeb学习笔记6——事务实例,我的支付宝3面+美团4面+拼多多四面

Java 程序员 后端

Java中使用Spring-security(一),java做视频直播

Java 程序员 后端

Java中的程序控制流程,java面试常问知识

Java 程序员 后端

Java发送邮件,字节跳动上千道精选面试题还不刷起来

Java 程序员 后端

java响应重定向发送post请求,spring+mybatis基础知识

Java 程序员 后端

java8实战读书笔记:Lambda表达式语法与函数式编程接口

Java 程序员 后端

Java中高级核心知识全面解析——消息队列(1),看完这一篇就够了

Java 程序员 后端

Java中高级核心知识全面解析——消息队列,mybatis映射原理

Java 程序员 后端

Java反射(1),java架构师薪资

Java 程序员 后端

Java基础03 Java的运算符,阿里巴巴java性能调优

Java 程序员 后端

Java基础复习(DayEleven),应届生面试java开发工程师的题

Java 程序员 后端

Java-进阶:集合框架1(1),java分布式系统面试题

Java 程序员 后端

Java在2018年的形势,MySQL优化原理分析及优化方案总结

Java 程序员 后端

Java中的几种阻塞队列(1),mybatis返回主键原理

Java 程序员 后端

java-集合-Map(双列)——迪迦重制版,zookeeper面试

Java 程序员 后端

Java中的初始化与清理,kafka参数调优

Java 程序员 后端

Java中的容器,Java开发进大厂面试必备技能

Java 程序员 后端

Java反射,mysql开发教程

Java 程序员 后端

Java基于TCP的网络编程,在阿里工作5年了

Java 程序员 后端

java-集合-Map(双列)——迪迦重制版(1),关于线程池的五种实现方式

Java 程序员 后端

OpenAI开放gpt-oss-120b和gpt-oss-20b模型权重,可在本地部署_AI&大模型_InfoQ精选文章