写点什么

OpenAI 发布 GPT 模型规范,可作为模型微调指南

Anthony Alford I

  • 2024-06-24
    北京
  • 本文字数:1102 字

    阅读完需:约 4 分钟

OpenAI 发布 GPT 模型规范,可作为模型微调指南

OpenAI 发布 GPT 模型规范,可作为模型微调指南 OpenAI 最近发布了其模型规范,这是一份描述 GPT 模型行为规则和目标的文档。该规范可供数据标注人员和 AI 研究人员在为模型微调创建数据时使用。


该模型规范基于 OpenAI 现有内部文档,OpenAI 在他们的人类反馈强化学习(RLHF)训练中使用了这些文档。规范包含了三种类型的原则:目标、规则和默认设置。目标定义了对模型行为的广泛描述:“造福人类”。规则则更加具体,涉及到用户绝不能违反的“高风险”情况:“永远不要做 X”。最后,规范包括了默认行为,虽然它们可以被覆盖,但提供了响应的基本样式指南和处理冲突的模板。根据 OpenAI 的说法:


作为我们在集体对齐和模型安全方面工作的延续,我们打算将模型规范作为研究人员和 AI 训练者进行人类反馈强化学习的指南。我们还将探索我们的模型能够直接从模型规范中学习到怎样的程度。我们将这项工作视为正在进行的关于模型的行为、如何确定期望的模型行为以及如何让公众参与这些讨论的持续公开对话的一部分。


2022 年,OpenAI 推出 GPT-3 的微调版本 InstructGPT 。该模型使用 RLHF 对模型输出排序数据集进行微调,目的是让模型更加“对齐”用户意图,减少错误或有害的输出。从那时起,许多研究团队也对他们的 LLM 进行了类似的微调。例如,谷歌的 Gemini 模型也使用 RLHF 进行微调。Meta 的 Llama 3 也经过微调,但是采用了不同的微调方法,即直接偏好优化(DPO)。


然而,微调的关键是由人工标记器排序的具有多个输出的提示输入数据集。模型规范的部分目的是指导标注人员对输出进行排序。OpenAI 还声称正在研究直接根据模型规范自动化指令微调过程的方法。因此,模型规范的许多内容都是用户提示词以及“好”的和“坏”的响应的示例。


规范中的许多规则和默认设置旨在解决常见的 LLM 滥用问题。例如,遵循命令链规则旨在帮助防止简单的“越狱”行为,即提示模型忽略前面的指令。其他规范旨在指导模型做出响应,特别是在模型拒绝执行任务时。规范中提到:“拒绝应该用一两句话解决,不要啰嗦”。


沃顿商学院教授和 AI 研究员 Ethan Mollick 在 X 上发表了有关模型规范的帖子:


正如评论中的一些人指出的那样,Anthropic 有它自己的章程。我发现它不像声明那么有分量,也不那么清晰,因为它概述了好的内容,并告诉 AI 要做好,这让人很难理解原则之间存在怎样艰难的选择。


Anthropic 在 2022 年提出了 Constitutional AI 的概念。这个过程使用 AI 模型对输出进行排名以进行指令微调。尽管 Anthropic 的代码不是开源的,但 AI 社区 HuggingFace 基于 Anthropic 的工作发布了 Constitutional AI 的参考实现。


查看英文原文


https://www.infoq.com/news/2024/06/openai-model-spec/

2024-06-24 10:175833

评论

发布
暂无评论
发现更多内容

CRM巨头败走中国,Salesforce中国区或将解散?

ToB行业头条

兵荒马乱,毕业季的故事

坚果

毕业 8月月更

对话庄表伟:开源第一课

开源社

#开源

兆骑科创高层次人才创业赛事活动,创新创业人才引进平台

兆骑科创凤阁

专访容智信息柴亚团:最低调的公司如何炼成最易用的RPA?

王吉伟频道

RPA 机器人流程自动化 0代码 容智信息 柴亚团

语音聊天app开发——开发人员如何进行代码分析

开源直播系统源码

软件开发 直播源码 语音app开发

酷炫一款动态背景+鼠标点击效果(HTML +js canvas)

Five

Hexo js 动效 canvas 8月月更

数据结构与算法完整版 | 超详细图解,看这一篇就够了

冉然学Java

字节跳动 java; 技术分享 编程、 算法与数据结构

华为分析&联运活动,助您提升游戏总体付费

HarmonyOS SDK

华为 游戏开发 分析 HMS Core

【Spring Boot 四】启动之准备系统环境environmentPrepared

石臻臻的杂货铺

Spring Boot 8月月更

vue-router 如何实现支持外部链接

Five

vue-router 路由 8月月更

COSCon'22城市/学校/机构出品人征集令

开源社

#开源 COSCon'22

shell脚本,帮你提升摸鱼时间!

工程师日月

签约计划第三季 8月月更

leetcode 240. Search a 2D Matrix II 搜索二维矩阵 II(中等)

okokabcd

数组 LeetCode 数据结构与算法

兆骑科创高层次人才引进平台,赛事活动举办,线上路演

兆骑科创凤阁

踩坑了!mysql明明加了唯一索引,还是产生了重复数据

程序员小毕

Java MySQL 数据库 程序员 后端

国密是什么意思?属于商密还是普密?

行云管家

信息安全 国密

NFT卡牌游戏系统Dapp开发(NFT链游)

薇電13242772558

dapp NFT

47K Star 的SpringBoot+MyBatis+docker电商项目,附超详细的文档

冉然学Java

数据库 项目 java; 编程、 源码学习

playwright录制脚本

和牛

测试 Python. 8月月更

【Spring Boot 三】SpringBoot中事件与通知

石臻臻的杂货铺

Spring Boot 8月月更

自己动手制作elasticsearch-head的Docker镜像

程序员欣宸

Java Docker elasticsearch 8月月更

CVE-2021-37580 Apache ShenYu 身份验证绕过漏洞复现

美创科技

漏洞

RT-Thread记录(二、RT-Thread内核启动流程 — 启动文件和源码分析)

矜辰所致

RTT RT-Thread 8月月更

行云管家荣获第十一届中国财经峰会“2022杰出品牌形象奖”

行云管家

云计算 多云管理 财经峰会

中移链EOSJS实战使用

BSN研习社

观测云产品更新|DCA Web 端上线;新增全局的查看器自动刷新配置;新增全局黑名单功能;新增自定义功能菜单等

观测云

阿里P8整理的《百亿级并发系统设计》实战教程,实在是太香了

冉然学Java

数据库 编程 架构 分布式 并发系统设计

NLP 论文领读|无参数机器翻译遇上对比学习:效率和性能我全都要!

澜舟孟子开源社区

人工智能 自然语言处理 机器学习 深度学习 机器翻译

荆棘与玫瑰:基础服务架构师的成⻓之路

九叔(高翔龙)

架构师 全球架构师峰会

字节跳动 Flink 状态查询实践与优化

Apache Flink

大数据 flink

OpenAI 发布 GPT 模型规范,可作为模型微调指南_AI&大模型_InfoQ精选文章