Hugging Face 大语言模型优化技术_生成式 AI_Sergio De Simone

时隔16年Jeff Barr重返10.23-25 QCon上海站，带你看透AI如何重塑软件开发！了解详情 



 写点什么



1.0x 

大小：684.82K时长：03:53

大语言模型的生产部署存在两个主要的挑战，一个是需要大量的参数，一个是需要处理非常长的用于表示上下文信息的输入序列。Hugging Face 基于他们提供大模型服务的经验分享了一些克服这些障碍的技术。

Patrick von Platen 在文中介绍的 Hugging Face 研究的三种技术是降低数值精度、使用一种叫作 Flash Attention 的注意力算法，以及使用专门的推理架构。

大语言模型需要大量的 VRAM 来加载，从几十(bigcode/starcoder)到数百 GB (Llama、Bloom、GPT3)。第一个优化手段是从float32切换到bfloat16精度：

现在几乎所有的模型都是基于 bfloat16 训练的，如果你的 GPU 支持 bfloat16，就没有理由基于全 float32 精度运行模型。float32 不会给出比训练模型所使用的精度更好的推理结果。

这可以使总体内存消耗减少一半，但可惜的是，在许多情况下仍然需要很大的内存。一种更激进的方法是将模型权重量化为 8 位或 4 位，这已经被证明不会导致显著的性能下降。

量化对于文本生成来说特别有效，因为我们所关心的是选择最有可能的下一个标记集合，而不是下一个标记 Logit 分布的确切值。

这将进一步减少所需的内存，使得在只有 16GB VRAM 的 GPU 上运行较小的模型成为可能，尽管代价是推理时间稍长。

von Platen 写道，使用Flash Attention是另一相关键的优化，它是大语言模型用来理解输入标记上下文关系的自注意力层的一种算法，有可能打破输入标记数量的二次增长。

因为该算法太过复杂，无法在这里描述，但可以这么说，它利用了 softmax 规范化统计数据和一些数学手段，在只需要随输入标记线性增长的内存的情况下提供相同的输出。推理性能也得益于算法使用了更快的 SRAM 而不是更慢的 GPU VRAM。

在实践中，目前绝对没有理由不使用 Flash Attention。该算法在数学层面给出了相同的输出，并且速度更快，内存效率更高。

Here recent research can help to make the right choice with two components that quickly become bottlenecks, says von Platen, _positional embeddings_ and the _key-value cache_.

在生产环境中部署大语言模型的第三项优化措施是选择正确的架构，让它们能够有效地处理长文本输入。von Platen 写道，最近的研究有助于我们如何对两个很快成为瓶颈的组件做出选择——一个是_位置嵌入(positional embeddings)_，一个是_键值缓存_。

位置嵌入通过将每个标记的位置编码为数字表示来帮助语言大模型理解序列顺序。对于需要处理大型文本输入任务的大语言模型，应该使用RoPE和ALiBi等相对位置嵌入技术进行训练。

RoPE 和 ALiBi 位置编码都可以外推到训练期间未遇到过的输入长度，而事实证明，与 RoPE 相比，外推对于开箱即用的 ALiBi 的效果要好得多。

目前的许多大语言模型中已经在使用这两种算法。

键值缓存可以作为对对话上下文进行编码的一种方法。键值缓存在发生每个新交互时增加一个元素，这比为每个请求编码/解码上下文的方法要有效得多。von Platen 详细介绍了两类键值缓存，即Multi-Query-Attention (MQA)和Grouped-Query-Attention(GQA) 。

von Platen 的文章所涵盖的内容不只有本文所概述的这些，他的文章中还提供了实际的例子来证明他的观点，所以请不要错过他的文章。

原文链接：

https://www.infoq.com/news/2023/09/hugging-face-optimizing-llms/

发布

暂无评论

创作场景

Hugging Face 大语言模型优化技术

评论

TiDB 生态工具 -- TiUniManager（原 TiEM）v1.0.0 体验

TiDB 集群一次诡异的写入慢问题排查经历

关于HTAP与HSAP

论分布式数据库TiDB架构的“存”与“算”

TiDB Lightning在数据迁移中的应用与错误处理实践

TiDB 6.0 新特性解读 | TiFlash 新增算子和函数下推

文盘Rust -- 领域交互模式如何实现

TiFlash 源码阅读（一） TiFlash 存储层概览

TiDB 6.0 新特性解读 | 离线包变更

初体验之rawkv learner recover灾备切换

TiDB v6.0.0(DMR) 缓存表初试

我和tidb 的故事 - 我们终会在平行世界相遇

一篇文章说透缓存表

Let's go, TiCheck!

TiDB 查询优化及调优系列（二）TiDB 查询计划简介

MVCC导致limit 1执行慢测试

TiDB 5.1 Write Stalls 应急文档

体验 TiDB v6.0.0 之 Clinic

排查分析Empty regions 较大原因

select查询失败，报“no such file or directory”错误

一次 TiDB 5.1 Write Stall 问题处理

体验 TiDB v6.0.0 之 TiDB 的数据迁移工具 DM-WebUI

TiEM初级实践

体验TiDB v6.0.0 之TiCDC

TiCDC系列分享-01-简述产生背景及使用概况

用一个性能提升了666倍的小案例说明在TiDB中正确使用索引的重要性

TiDB 4.0 升级 5.1 二三事——避坑指南

TiDB 6.0 新特性解读 | Collation 规则

TiDB 冷热存储分离解决方案

内存悲观锁原理浅析与实践

TiDB 6.0 Placement Rules In SQL 使用实践

创作场景

Hugging Face 大语言模型优化技术

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载