写点什么

微软发布 Orca 2 LLM,表现优于 10 倍参数模型

作者:Anthony Alford

  • 2023-12-25
    北京
  • 本文字数:1209 字

    阅读完需:约 4 分钟

大小:591.51K时长:03:21
微软发布Orca 2 LLM,表现优于10倍参数模型

微软发布 Orca 2 LLM,这是 Llama 2 的一个调优版本,性能与包含 10 倍参数的模型相当,甚至更好。Orca 2 使用了一个合成训练数据集和一项称为 Prompt Erasure(提示词擦除) 的新技术来实现这一性能。


Orca 2 使用了师生模式的训练方案,其中一个较大、较强的 LLM 作为另一个较小的 LLM(学生)的老师,老师的目标是提升学生的性能,使其与更大模型的性能相媲美。微软的训练技术教会较小的模型多种推理技巧,并教其如何为特定任务选择最有效的技巧。为此,老师被赋予了复杂的提示词来触发某种推理行为。不过,在一种被称为 Prompt Erasure 的方案中,学生只得到任务要求和期望的响应,而不是老师的提示词。在基准测试中,一个拥有 13B 参数的 Orca 2 模型的表现超过了一个 13B 参数的基准 Llama 2 模型,提升了 47.54%。而一个拥有 7B 参数的 Orca 2 模型在推理任务方面与一个拥有 70B 参数的 Llama 2 模型相当,甚至更好。


尽管像 ChatGPT 这样的 LLM 在给定少量提示词的情况下通常表现良好,但由于其内存和计算需求较大,托管这些模型极具有挑战性。经过调优的较小的模型也可以表现良好,许多研究人员已经在研究使用较大 LLM 生成的合成数据集对它们进行训练。InfoQ 最近报道了谷歌的 Distilling Step-by-Step 方法,该方法会让老师 LLM 自动生成一个小型的调优数据集,其中包含输入和输出标签,以及为何选择输出标签的“基本原理”。InfoQ 还报道了 Stability AI 的 Stable Beluga 模型,它使用微软原始的 Orca 1 方案进行训练,该方案使用了 Explanation Tuning,其中老师 LLM 被提示“生成详细答案”。


与 Orca 1 类似,Orca 2 训练数据集是由老师 LLM 生成的,而老师 LLM 收到了详细的提示词。然而,微软新的训练方法 Cautious Reasoning 将训练任务与提示词相结合,引导老师 LLM 使用特定的问题解决策略,如“一步一步”或“解释你的答案”。然后在学生的训练过程中,老师的提示词被删除,这促使学生学会选择正确的策略。


为了评估这种方法,微软将 Orca 2 模型的性能与几个基准模型进行了比较,包括 Llama 2、ChatGPT(GPT-3.5)和 GPT-4。基准任务包括推理、语言理解、文本完成和摘要。在推理基准测试中,13B 参数 Orca 2 模型优于除 ChatGPT 和 GPT-4 之外的所有基准。他们还发现,给 Orca 2 一个“谨慎”的系统提示词(“你是一个谨慎的助手,你会仔细遵循指示”)相比无系统提示会略微提升其性能。


有几位用户在 X 上发表了关于 Orca 2 的帖子。一位用户指出:“你不需要用‘一步一步解释’这样的技巧来提示它。它自己知道。” AI 研究员 Rudi Ranck 写道


许多绝妙的想法都很简单……就像 Orca 2 中的“提示词擦除”一样:完整的提示词不会呈现给模型,而只呈现任务和答案(它过滤了生成这些答案所使用的完整提示词)。这有助于模型在更高层次上制定策略。这是一篇非常好的论文。我强烈建议通读全文。


7B13B 参数的 Orca 2 模型可在 Huggingface 上获得。


原文链接

https://www.infoq.com/news/2023/12/microsoft-orca-2-llm/

2023-12-25 11:2114014

评论

发布
暂无评论
发现更多内容

这些react面试题你会吗,反正我回答的不好

beifeng1996

前端 React

TCP协议和UDP协议详细介绍

阿柠xn

TCP 计算机网络 协议族 UDP协议 9月月更

融云员工服务台,跟“干不完”说再见

融云 RongCloud

IT职场

数据库系统是什么?它由哪几部分组成?

乌龟哥哥

9月月更

js常见手写题总结

helloworld1024fd

JavaScript 前端

JavaWeb核心之ServletContext

楠羽

Servlet 笔记 9月月更

【云原生 | 从零开始学Kubernetes】六、Pod的镜像拉取策略与各种机制

泡泡

Docker 云计算 云原生 k8s 9月月更

NFTScan 与 ET.XYZ 在 NFT API 数据层面进行深度合作

NFT Research

区块链 NFT web3

Serverless遇到 FinOps: Economical Serverless

华为云开发者联盟

云原生 后端 企业号九月金秋榜

[SpringBoot]多环境配置,配置文件分类

十八岁讨厌编程

Java 后端开发 9月月更

INFINI 产品更新啦 20220923

极限实验室

elasticsearch console Gateway infini 极限实验室

19道高频vue面试题,顺便写一下自己的答案

bb_xiaxia1998

Vue 前端

深度剖析Istio共享代理新模式Ambient Mesh

华为云开发者联盟

云计算 云原生 后端 企业号九月金秋榜

Http轮询分为长查询和短查询总结

知识浅谈

HTTP 9月月更

关于 Angular 应用 tsconfig.json 中的 lib 属性

汪子熙

typescript 前端开发 angular web开发 9月月更

SpringBoot初识

十八岁讨厌编程

Java 后端开发 9月月更

开发者有话说|如何写出更加优雅的代码

闫同学

个人成长

VUE v-bind 数据绑定

HoneyMoose

跟我学Python图像处理丨带你掌握傅里叶变换原理及实现

华为云开发者联盟

Python 人工智能 企业号九月金秋榜

Struts实现登录

Struts2 9月月更

大数据调度平台Airflow(七):Airflow分布式集群搭建原因及其他扩展

Lansonli

airflow 9月月更

物联网实践分享

彭发红

死锁检测实现

C++后台开发

后台开发 线程 多线程 死锁 C++开发

前端面试经常被问的题目,自己总结了一下

loveX001

JavaScript 前端

js高频手写题总结

helloworld1024fd

JavaScript 前端

Code For Better 谷歌开发者之声——Google Cloud谷歌云

Fire_Shield

云原生 Google Cloud 9月月更

react20道高频面试题答案总结

beifeng1996

前端 React

Docker多阶段构建实战(multi-stage builds)

程序员欣宸

Docker 9月月更

自动化测试神器playwright的安装及常见问题解决

迷彩

playwright 学习记录 9月月更

[SpringBoot]配置文件格式、yaml配置及读取

十八岁讨厌编程

Java 9月月更

【云原生 | 从零开始学Kubernetes】五、Kubernetes核心技术Pod

泡泡

Docker 云计算 云原生 k8s 9月月更

微软发布Orca 2 LLM,表现优于10倍参数模型_微软_InfoQ精选文章