AICon上海|与字节、阿里、腾讯等企业共同探索Agent 时代的落地应用 了解详情
写点什么

OpenAI 发布 GPT 模型规范,可作为模型微调指南

Anthony Alford I

  • 2024-06-24
    北京
  • 本文字数:1102 字

    阅读完需:约 4 分钟

OpenAI 发布 GPT 模型规范,可作为模型微调指南

OpenAI 发布 GPT 模型规范,可作为模型微调指南 OpenAI 最近发布了其模型规范,这是一份描述 GPT 模型行为规则和目标的文档。该规范可供数据标注人员和 AI 研究人员在为模型微调创建数据时使用。


该模型规范基于 OpenAI 现有内部文档,OpenAI 在他们的人类反馈强化学习(RLHF)训练中使用了这些文档。规范包含了三种类型的原则:目标、规则和默认设置。目标定义了对模型行为的广泛描述:“造福人类”。规则则更加具体,涉及到用户绝不能违反的“高风险”情况:“永远不要做 X”。最后,规范包括了默认行为,虽然它们可以被覆盖,但提供了响应的基本样式指南和处理冲突的模板。根据 OpenAI 的说法:


作为我们在集体对齐和模型安全方面工作的延续,我们打算将模型规范作为研究人员和 AI 训练者进行人类反馈强化学习的指南。我们还将探索我们的模型能够直接从模型规范中学习到怎样的程度。我们将这项工作视为正在进行的关于模型的行为、如何确定期望的模型行为以及如何让公众参与这些讨论的持续公开对话的一部分。


2022 年,OpenAI 推出 GPT-3 的微调版本 InstructGPT 。该模型使用 RLHF 对模型输出排序数据集进行微调,目的是让模型更加“对齐”用户意图,减少错误或有害的输出。从那时起,许多研究团队也对他们的 LLM 进行了类似的微调。例如,谷歌的 Gemini 模型也使用 RLHF 进行微调。Meta 的 Llama 3 也经过微调,但是采用了不同的微调方法,即直接偏好优化(DPO)。


然而,微调的关键是由人工标记器排序的具有多个输出的提示输入数据集。模型规范的部分目的是指导标注人员对输出进行排序。OpenAI 还声称正在研究直接根据模型规范自动化指令微调过程的方法。因此,模型规范的许多内容都是用户提示词以及“好”的和“坏”的响应的示例。


规范中的许多规则和默认设置旨在解决常见的 LLM 滥用问题。例如,遵循命令链规则旨在帮助防止简单的“越狱”行为,即提示模型忽略前面的指令。其他规范旨在指导模型做出响应,特别是在模型拒绝执行任务时。规范中提到:“拒绝应该用一两句话解决,不要啰嗦”。


沃顿商学院教授和 AI 研究员 Ethan Mollick 在 X 上发表了有关模型规范的帖子:


正如评论中的一些人指出的那样,Anthropic 有它自己的章程。我发现它不像声明那么有分量,也不那么清晰,因为它概述了好的内容,并告诉 AI 要做好,这让人很难理解原则之间存在怎样艰难的选择。


Anthropic 在 2022 年提出了 Constitutional AI 的概念。这个过程使用 AI 模型对输出进行排名以进行指令微调。尽管 Anthropic 的代码不是开源的,但 AI 社区 HuggingFace 基于 Anthropic 的工作发布了 Constitutional AI 的参考实现。


查看英文原文


https://www.infoq.com/news/2024/06/openai-model-spec/

2024-06-24 10:175721

评论

发布
暂无评论
发现更多内容

客户服务高触达,零代码从短信/邮件跳转小程序客服

环信

观看辽篮比赛,思考团队管理——关于团队的灵魂拷问,你中了几个?

伯薇

团队管理 团队建设 团队 赋能 激励

Android面试(二)

我就感觉到快

程序员生产环境-软件篇

ITCamel

程序员 效率工具 工作效率

万字带你深入阿里开源的Canal工作原理

大数据老哥

大数据 canal

你kin你擦!阿里终于肯把内部高并发编程高阶笔记开源出来了

Java架构之路

Java 程序员 架构 面试 编程语言

关于JDK15的简单理解

Java架构师迁哥

为什么你家的 K8s 应用平台不好用?

孙健波

Kubernetes PaaS KubeVela

企业短信服务质量与用户体验如何监控?短信监测技术震撼来袭

博睿数据

短信 数据监测

【我给面试官画饼】软件测试理论基础、质量保证常见面试题——会被面试官赶出来吗?

程序员阿沐

面试 软件测试 测试工程师 质量保证

直播预告丨NLP领域的2020年大事记及2021展望

京东科技开发者

机器学习 AI nlp

Soul网关源码阅读(八)路由匹配初探

Java 源码阅读 网关

技术分享 | 漫谈音视频中的拥塞控制

拍乐云Pano

阿里开源SpringSecurity:用户+案例+认证+框架

996小迁

Java 程序员 架构 面试 springsecurity

边缘安全 | 正确使用CDN 让你更好规避安全风险

阿里云Edge Plus

安全 CDN

实现数字经济和实体经济深度融合

CECBC

区块链

大数据知识专栏 -MapReduce 自定义排序技术

小马哥

大数据 hadoop mapreduce 七日更

EXCEL数据太“脏”无从下手?何须用python,ETL一分钟搞定

智分析

Excel ETL

胜天半子!阿里内部力荐SpringBoot全栈笔记全网首发,源码实战齐飞

Java架构之路

Java 程序员 架构 面试 编程语言

LeetCode题解:105. 从前序与中序遍历序列构造二叉树,递归+哈希表,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

数字货币应用从C端走向B端 实践中这些难题仍需关注

CECBC

数字货币

【盘点2020】机房网络性能哪家强?年度冠军揭晓

博睿数据

机房 评测

从烟酒茶说系统化学习

张老蔫

28天写作

一文读懂 Serverless,将配置化思想复用到平台系统中

Serverless Devs

Serverless 云原生 PaaS

第一周作业

Esther

百度首届智能小程序高校大赛圆满结束:关注学生心理健康小程序获全国一等奖

DT极客

AES128解密只能解一半的问题

李日盛

AES 问题定位

跨界融合,区块链推动实体经济提档升级

CECBC

人工智能 云计算 大数据

永续合约APP系统软件开发

系统开发

​Kubernetes资源清单篇:如何创建资源?​

xcbeyond

Kubernetes 28天写作 Kubernetes从入门到精通

数据倾斜?Spark 3.0 AQE专治各种不服

王知无

大数据 spark

OpenAI 发布 GPT 模型规范,可作为模型微调指南_AI&大模型_InfoQ精选文章