写点什么

微软发布 Orca 2 LLM,表现优于 10 倍参数模型

作者:Anthony Alford

  • 2023-12-25
    北京
  • 本文字数:1209 字

    阅读完需:约 4 分钟

大小:591.51K时长:03:21
微软发布Orca 2 LLM,表现优于10倍参数模型

微软发布 Orca 2 LLM,这是 Llama 2 的一个调优版本,性能与包含 10 倍参数的模型相当,甚至更好。Orca 2 使用了一个合成训练数据集和一项称为 Prompt Erasure(提示词擦除) 的新技术来实现这一性能。


Orca 2 使用了师生模式的训练方案,其中一个较大、较强的 LLM 作为另一个较小的 LLM(学生)的老师,老师的目标是提升学生的性能,使其与更大模型的性能相媲美。微软的训练技术教会较小的模型多种推理技巧,并教其如何为特定任务选择最有效的技巧。为此,老师被赋予了复杂的提示词来触发某种推理行为。不过,在一种被称为 Prompt Erasure 的方案中,学生只得到任务要求和期望的响应,而不是老师的提示词。在基准测试中,一个拥有 13B 参数的 Orca 2 模型的表现超过了一个 13B 参数的基准 Llama 2 模型,提升了 47.54%。而一个拥有 7B 参数的 Orca 2 模型在推理任务方面与一个拥有 70B 参数的 Llama 2 模型相当,甚至更好。


尽管像 ChatGPT 这样的 LLM 在给定少量提示词的情况下通常表现良好,但由于其内存和计算需求较大,托管这些模型极具有挑战性。经过调优的较小的模型也可以表现良好,许多研究人员已经在研究使用较大 LLM 生成的合成数据集对它们进行训练。InfoQ 最近报道了谷歌的 Distilling Step-by-Step 方法,该方法会让老师 LLM 自动生成一个小型的调优数据集,其中包含输入和输出标签,以及为何选择输出标签的“基本原理”。InfoQ 还报道了 Stability AI 的 Stable Beluga 模型,它使用微软原始的 Orca 1 方案进行训练,该方案使用了 Explanation Tuning,其中老师 LLM 被提示“生成详细答案”。


与 Orca 1 类似,Orca 2 训练数据集是由老师 LLM 生成的,而老师 LLM 收到了详细的提示词。然而,微软新的训练方法 Cautious Reasoning 将训练任务与提示词相结合,引导老师 LLM 使用特定的问题解决策略,如“一步一步”或“解释你的答案”。然后在学生的训练过程中,老师的提示词被删除,这促使学生学会选择正确的策略。


为了评估这种方法,微软将 Orca 2 模型的性能与几个基准模型进行了比较,包括 Llama 2、ChatGPT(GPT-3.5)和 GPT-4。基准任务包括推理、语言理解、文本完成和摘要。在推理基准测试中,13B 参数 Orca 2 模型优于除 ChatGPT 和 GPT-4 之外的所有基准。他们还发现,给 Orca 2 一个“谨慎”的系统提示词(“你是一个谨慎的助手,你会仔细遵循指示”)相比无系统提示会略微提升其性能。


有几位用户在 X 上发表了关于 Orca 2 的帖子。一位用户指出:“你不需要用‘一步一步解释’这样的技巧来提示它。它自己知道。” AI 研究员 Rudi Ranck 写道


许多绝妙的想法都很简单……就像 Orca 2 中的“提示词擦除”一样:完整的提示词不会呈现给模型,而只呈现任务和答案(它过滤了生成这些答案所使用的完整提示词)。这有助于模型在更高层次上制定策略。这是一篇非常好的论文。我强烈建议通读全文。


7B13B 参数的 Orca 2 模型可在 Huggingface 上获得。


原文链接

https://www.infoq.com/news/2023/12/microsoft-orca-2-llm/

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-12-25 11:216387

评论

发布
暂无评论

如何实现一个延时队列 ?

领创集团Advance Intelligence Group

延时队列 Redis 数据结构 redis 底层原理

【Unity UGUI】ScrollRect 动态缩放格子大小,自动定位到中间的格子

萧然🐳

游戏开发 Unity ScrollView 7月月更 UGUI

第十八届IET交直流输电国际会议(ACDC2022)于线上成功举办

E科讯

DataKit——真正的统一可观测性 Agent

观测云

OPPO 小布预训练大模型揭秘:可大规模工业化应用的十亿级模型

OPPO小布助手

AI 智能助手 预训练模型 预训练

五千字讲清楚团队自组织建设 | Liga 妙谈

LigaAI

团队管理 个人提升 敏捷开发管理 LigaAI 自组织协作

NBA赛事直播超清画质背后:阿里云视频云「窄带高清2.0」技术深度解读

阿里云视频云

音视频 直播 视频编码

深入JS中几种数据类型的解构赋值细节

猪痞恶霸

前端 js ES6 7月月更

一加10 Pro和iPhone 13怎么选?

Geek_8a195c

Python 入门指南之使用 Python 解释器

海拥(haiyong.site)

7月月更

科普达人丨一文看懂阿里云的秘密武器“神龙架构”

阿里云弹性计算

云计算 虚拟化 资源管理 神龙架构

容器环境minor gc异常频繁分析

wgy

Java minor gc

2022年国内云管平台厂商哪家好?为什么?

行云管家

云计算 云管平台 云管平台厂商

PingCode 性能测试之负载测试实践

PingCode研发中心

软件测试 PingCode

TCP两次挥手,你见过吗?那四次握手呢?

C++后台开发

网络编程 网络协议 TCP/IP 后端开发 C++开发

输入的查询SQL语句,是如何执行的?

华为云开发者联盟

MySQL sql 开发 语句

LeaRun.Java快速开发平台 高效代码自动化生成

力软低代码开发平台

什么是低代码开发?

AIRIOT

低代码 物联网 低代码,项目开发

图像检索(image retrieval)

Geek_e369a5

图像搜索 图像检索

同事悄悄告诉我,飞书通知还能这样玩

Jianmu

自动化 建木CI 飞书通知 定时

能源行业的数字化“新”运维

博睿数据

AIOPS 智能运维 博睿数据 能源行业

激进技术派 vs 项目保守派的微服务架构之争

BoCloud博云

微服务 微服务架构 云原生 istio 服务网格

uni-app与uviewUI实现仿小米商城app(附源码)

优秀的李

小程序 uniapp 7月月更 uviewui

LeetCode-168. Excel表列名称(java)

bug菌

LeetCode 7月月更

华为云ModelArts的使用教程(附详细图解)

逝缘~

华为 华为云 7月月更

Numpy 的仿制 2

祖维

c slice Numpy

被忽视的问题:测试环境配置管理

老张

软件测试 测试环境治理

字节跳动Dev Better技术沙龙成功举办,携手华泰分享Web研发效能提升经验

字节跳动终端技术

字节跳动 前端

多年锤炼,迈向Kata 3.0 !走进开箱即用的安全容器体验之旅| 龙蜥技术

OpenAnolis小助手

开源 容器 云原生 龙蜥技术 Kata Containers

太方便了,钉钉上就可完成代码发布审批啦!

阿里云云效

云计算 阿里云 钉钉 jenkins 代码

智捷云——元宇宙综合解决方案服务商

智捷云

区块链 元宇宙 智捷云 区块链技术开发

微软发布Orca 2 LLM,表现优于10倍参数模型_微软_InfoQ精选文章