【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

Hugging Face 大语言模型优化技术

  • 2023-10-07
    北京
  • 本文字数:1303 字

    阅读完需:约 4 分钟

大小:684.82K时长:03:53
Hugging Face 大语言模型优化技术

大语言模型的生产部署存在两个主要的挑战,一个是需要大量的参数,一个是需要处理非常长的用于表示上下文信息的输入序列。Hugging Face 基于他们提供大模型服务的经验分享了一些克服这些障碍的技术


Patrick von Platen 在文中介绍的 Hugging Face 研究的三种技术是降低数值精度、使用一种叫作 Flash Attention 的注意力算法,以及使用专门的推理架构


大语言模型需要大量的 VRAM 来加载,从几十(bigcode/starcoder)到数百 GB (Llama、Bloom、GPT3)。第一个优化手段是从float32切换到bfloat16精度:


现在几乎所有的模型都是基于 bfloat16 训练的,如果你的 GPU 支持 bfloat16,就没有理由基于全 float32 精度运行模型。float32 不会给出比训练模型所使用的精度更好的推理结果。


这可以使总体内存消耗减少一半,但可惜的是,在许多情况下仍然需要很大的内存。一种更激进的方法是将模型权重量化为 8 位或 4 位,这已经被证明不会导致显著的性能下降


量化对于文本生成来说特别有效,因为我们所关心的是选择最有可能的下一个标记集合,而不是下一个标记 Logit 分布的确切值。


这将进一步减少所需的内存,使得在只有 16GB VRAM 的 GPU 上运行较小的模型成为可能,尽管代价是推理时间稍长。


von Platen 写道,使用Flash Attention是另一相关键的优化,它是大语言模型用来理解输入标记上下文关系的自注意力层的一种算法,有可能打破输入标记数量的二次增长。


因为该算法太过复杂,无法在这里描述,但可以这么说,它利用了 softmax 规范化统计数据和一些数学手段,在只需要随输入标记线性增长的内存的情况下提供相同的输出。推理性能也得益于算法使用了更快的 SRAM 而不是更慢的 GPU VRAM。


在实践中,目前绝对没有理由不使用 Flash Attention。该算法在数学层面给出了相同的输出,并且速度更快,内存效率更高。


Here recent research can help to make the right choice with two components that quickly become bottlenecks, says von Platen, _positional embeddings_ and the _key-value cache_.


在生产环境中部署大语言模型的第三项优化措施是选择正确的架构,让它们能够有效地处理长文本输入。von Platen 写道,最近的研究有助于我们如何对两个很快成为瓶颈的组件做出选择——一个是_位置嵌入(positional embeddings)_,一个是_键值缓存_。


位置嵌入通过将每个标记的位置编码为数字表示来帮助语言大模型理解序列顺序。对于需要处理大型文本输入任务的大语言模型,应该使用RoPEALiBi等相对位置嵌入技术进行训练。


RoPE 和 ALiBi 位置编码都可以外推到训练期间未遇到过的输入长度,而事实证明,与 RoPE 相比,外推对于开箱即用的 ALiBi 的效果要好得多。


目前的许多大语言模型中已经在使用这两种算法。


键值缓存可以作为对对话上下文进行编码的一种方法。键值缓存在发生每个新交互时增加一个元素,这比为每个请求编码/解码上下文的方法要有效得多。von Platen 详细介绍了两类键值缓存,即Multi-Query-Attention (MQA)Grouped-Query-Attention(GQA)


von Platen 的文章所涵盖的内容不只有本文所概述的这些,他的文章中还提供了实际的例子来证明他的观点,所以请不要错过他的文章。


原文链接

https://www.infoq.com/news/2023/09/hugging-face-optimizing-llms/

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-10-07 10:223605

评论

发布
暂无评论
发现更多内容

fastposter v2.10.0 简单易用的海报生成器

物有本末

海报 小程序营销 海报生成 海报小程序

Webpack配置实战

Geek_02d948

webpack

高并发系统谨防被一行日志击垮

小小怪下士

Java 程序员 高并发

Webpack构建速度优化

Geek_02d948

webpack

一文读透react精髓

xiaofeng

React

redux原理是什么

xiaofeng

React

阿里和蚂蚁集团共建并开源的国内第一款IDE框架——OpenSumi新版本发布

云布道师

#开源项目 2022云栖大会

阿里云丁宇:交付管理一体化的云原生应用平台 KubeVela 再升级

云布道师

云原生 2022云栖大会

阿里巴巴云生态 9 大开源项目重磅发布

云布道师

云计算 开源 2022云栖大会

低代码实现探索(五十二)基于模板方式基组件

零道云-混合式低代码平台

李珣同款爱心特效代码,加DIY教程,快拿去送给你喜欢的那个ta吧。

bug菌

跳动的爱心 代码爱心 爱心代码

webpack实战,手写loader和plugin

Geek_02d948

webpack

推动中小企业数字化转型,终于“有据可依”了

雨果

低代码 数字化转型

当大火的文图生成模型遇见知识图谱,AI画像趋近于真实世界

阿里云大数据AI技术

深度学习 PyTorch 知识图谱 企业号十月 PK 榜 图文生成

oracle数据库开发优化建议

默默的成长

oracle 前端 11月月更

新闻速递 | KaiwuDB 亮相世界互联网大会

KaiwuDB

数据库 大数据 互联网

ModStartBlog v6.1.0 界面显示优化,富文本升级

ModStart

SpringBoot 自动装配原理

Jeremy Lai

springboot 自动装配

你要的react+ts最佳实践指南

xiaofeng

React

Vue组件是怎样挂载的

yyds2026

Vue

Vue模板是怎样编译的

yyds2026

Vue

基线提升至96.45%:2022 司法杯犯罪事实实体识别+数据蒸馏+主动学习

汀丶人工智能

知识蒸馏 命名实体识别 11月月更

HTML知识框架 一

默默的成长

oracle 前端 11月月更

计算机网络:随机访问介质访问控制之CSMA/CD协议

timerring

计算机网络 11月月更

云栖大会“云计算加速开源创新论坛” 揭晓 2022 年度开源人物

云布道师

开源 云栖大会

Jenkins 安全tips

SEAL安全

安全 jenkins

web3.0多链挖矿dapp系统开发技术详情

开发微hkkf5566

列存数据仓库怎样更高效

王磊

Vue实战必会的几个技巧

yyds2026

Vue

谈谈 Angular 应用 Feature Module 的延迟加载话题

Jerry Wang

typescript angular web开发 SAP 11月月更

BI分析助力企业数字营销与运营,瓴羊Quick BI让企业决策更精准

巷子

Hugging Face 大语言模型优化技术_生成式 AI_Sergio De Simone_InfoQ精选文章