微软发布Orca 2 LLM，表现优于10倍参数模型_微软_InfoQ精选文章



 写点什么

登录/注册



大小：591.51K时长：03:21

微软发布Orca 2 LLM，表现优于10倍参数模型

微软发布 Orca 2 LLM，这是 Llama 2 的一个调优版本，性能与包含 10 倍参数的模型相当，甚至更好。Orca 2 使用了一个合成训练数据集和一项称为 Prompt Erasure（提示词擦除） 的新技术来实现这一性能。

Orca 2 使用了师生模式的训练方案，其中一个较大、较强的 LLM 作为另一个较小的 LLM（学生）的老师，老师的目标是提升学生的性能，使其与更大模型的性能相媲美。微软的训练技术教会较小的模型多种推理技巧，并教其如何为特定任务选择最有效的技巧。为此，老师被赋予了复杂的提示词来触发某种推理行为。不过，在一种被称为 Prompt Erasure 的方案中，学生只得到任务要求和期望的响应，而不是老师的提示词。在基准测试中，一个拥有 13B 参数的 Orca 2 模型的表现超过了一个 13B 参数的基准 Llama 2 模型，提升了 47.54%。而一个拥有 7B 参数的 Orca 2 模型在推理任务方面与一个拥有 70B 参数的 Llama 2 模型相当，甚至更好。

尽管像 ChatGPT 这样的 LLM 在给定少量提示词的情况下通常表现良好，但由于其内存和计算需求较大，托管这些模型极具有挑战性。经过调优的较小的模型也可以表现良好，许多研究人员已经在研究使用较大 LLM 生成的合成数据集对它们进行训练。InfoQ 最近报道了谷歌的 Distilling Step-by-Step 方法，该方法会让老师 LLM 自动生成一个小型的调优数据集，其中包含输入和输出标签，以及为何选择输出标签的“基本原理”。InfoQ 还报道了 Stability AI 的 Stable Beluga 模型，它使用微软原始的 Orca 1 方案进行训练，该方案使用了 Explanation Tuning，其中老师 LLM 被提示“生成详细答案”。

与 Orca 1 类似，Orca 2 训练数据集是由老师 LLM 生成的，而老师 LLM 收到了详细的提示词。然而，微软新的训练方法 Cautious Reasoning 将训练任务与提示词相结合，引导老师 LLM 使用特定的问题解决策略，如“一步一步”或“解释你的答案”。然后在学生的训练过程中，老师的提示词被删除，这促使学生学会选择正确的策略。

为了评估这种方法，微软将 Orca 2 模型的性能与几个基准模型进行了比较，包括 Llama 2、ChatGPT（GPT-3.5）和 GPT-4。基准任务包括推理、语言理解、文本完成和摘要。在推理基准测试中，13B 参数 Orca 2 模型优于除 ChatGPT 和 GPT-4 之外的所有基准。他们还发现，给 Orca 2 一个“谨慎”的系统提示词（“你是一个谨慎的助手，你会仔细遵循指示”）相比无系统提示会略微提升其性能。

有几位用户在 X 上发表了关于 Orca 2 的帖子。一位用户指出：“你不需要用‘一步一步解释’这样的技巧来提示它。它自己知道。” AI 研究员 Rudi Ranck 写道：

许多绝妙的想法都很简单……就像 Orca 2 中的“提示词擦除”一样：完整的提示词不会呈现给模型，而只呈现任务和答案（它过滤了生成这些答案所使用的完整提示词）。这有助于模型在更高层次上制定策略。这是一篇非常好的论文。我强烈建议通读全文。

7B 和 13B 参数的 Orca 2 模型可在 Huggingface 上获得。

原文链接：

https://www.infoq.com/news/2023/12/microsoft-orca-2-llm/

评论

发布

暂无评论

深入理解HTTPS协议

android 程序员移动开发

深入理解JobScheduler与JobService的使用

android 程序员移动开发

源码解析，Glide加载GIF图的原理竟然这么简单

android 程序员移动开发

牛掰！阿里P7大佬爆肝半个月，把安卓源码解析编成了508页的PDF

android 程序员移动开发

玩转AppBarLayout，更酷炫的顶部栏(1)

android 程序员移动开发

盘点2020年Android面试必备知识点

android 程序员移动开发

原来一个 Map 就能搞定注册表了

悟空聊架构

Eureka 源码剖析注册中心悟空聊架构 11月日更

滴滴国际化项目 Android 端演进

android 程序员移动开发

漫谈MVVM(1)ViewModel_DataBinding核心原理(2)

android 程序员移动开发

炒冷饭之Https 建立链接

android 程序员移动开发

疫情下中年IT的焦虑

android 程序员移动开发

【设计模式】第十三篇 - 享元模式 - 连连看的图片共享

设计模式享元模式 11月日更

疫情下，中年IT的焦虑

android 程序员移动开发

深度探索 Gradle 自动化构建技术（二、Groovy 筑基篇）

android 程序员移动开发

深度探索 Gradle 自动化构建技术（四、自定义 Gradle 插件）

android 程序员移动开发

EMQ 获评“最具潜力边缘计算企业”，推动边缘计算生态发展

EMQ映云科技

物联网 IoT mqtt

灵魂拷问：Android开发初期之后怎么提升？怎么才能叫精通？方向在哪

android 程序员移动开发

疫情结束后，会影响程序员年后找工作吗？

android 程序员移动开发

疫情过后，想找工作的你还不看这份资料就晚了！！史上最强总结

android 程序员移动开发

漫谈MVVM(1)ViewModel_DataBinding核心原理(1)

android 程序员移动开发

漫谈MVVM(1)ViewModel_DataBinding核心原理

android 程序员移动开发

玩转AppBarLayout，更酷炫的顶部栏

android 程序员移动开发

混合开发框架最全对比，为什么我更推荐Flutter？

android 程序员移动开发

炸裂！一次Android实习经历告诉你：老爸不是张一鸣，该用什么技巧进字节

android 程序员移动开发

用MVP模式构建Android代码

android 程序员移动开发

深度思考：已经开发8年的你，为何跳槽被多家大厂拒绝？为什么会迷茫Android开发还有什么能学习的

android 程序员移动开发

深入解析Flutter架构

android 程序员移动开发

渣渣二本的辛酸面试之路：从深圳外包到杭州蚂蚁金服，4年小Android的爬坑历程

android 程序员移动开发

温故而知新：重新认识Activity的生命周期

android 程序员移动开发

疫情被裁3个月，看我如何拿下腾讯offer（附面经+面试心得

android 程序员移动开发

深入浅出协程、线程和并发问题

android 程序员移动开发