云服务遇到大模型：青云 AI 在线推理服务解析_生成式 AI_Tina



 写点什么



大小：1.36M时长：07:54

作者 | 梁朝东，刘庆，杜炜，樊军伟，赵玉萍

在快速发展的生成式 AI 浪潮中，大语言模型推理是一个主流的工作负载，众多云服务提供商都致力于提供实时高效的大语言模型推理服务。青云 QingCloud 已经基于第四代英特尔^®至强^®可扩展处理器和 BigDL-LLM 大语言模型推理方案开发并上线了实时低延迟的大语言模型推理服务。本文介绍了青云 AI 在线推理服务，以及其中应用到的大语言模型技术和优化。

青云 AI 在线推理服务

青云科技近期推出了青云模型市场试用版，此试用版目前已基于青云已有的应用市场扩展了“大模型”分类，支持了众多国内外开源模型，如 ChatGLM3、Baichuan2、LLaMA2 等。其中，青云 AI 在线推理服务（公测版）构建在模型市场上，用户可使用开源模型，或者自行上传私有模型镜像，使用简单步骤即可实现快速大模型应用的部署。

青云 AI 在线推理服务运行于基于第四代英特尔^®至强^®可扩展服务器的青云 E4 云主机，采用了基于英特尔 BigDL-LLM 的大语言模型推理的运行时（runtime），支持实时低延迟大语言模型推理。目前该服务已上线，用户访问青云网站即可体验大语言模型的高效在线推理服务。

“青云 AI 在线推理”的访问界面如下所示：

用户登陆青云公有云，进入 AppCenter 控制台，选择“青云 AI 在线推理”。按照页面提示的步骤开始创建服务，在基本配置选项中，选择 intel-runtime，即可创建带有 AMX 特性的青云 E4 云主机，并可指定由 BigDL-LLM 提供低延迟推理能力。

经过服务器配置（推荐使用 16 核 32GB 内存的青云实例），网络配置（VPC 网络），服务环境配置（配置镜像仓库等）等步骤，即可以提交进行服务部署。如果成功部署，则可以看到 AI 在线推理服务的节点状态为“活跃”，服务状态为“正常”。　

通过青云负载均衡器提供的公网 IP，可以在浏览器访问部署成功的 “青云 AI 在线推理服务”，示例如下图所示。

BigDL-LLM 大语言模型推理和性能优化

青云 AI 在线推理服务运行在基于第四代英特尔^®至强^®可扩展处理器的青云 E4 系列云主机。第四代英特尔® 至强® 可扩展处理器通过创新架构增加了每个时钟周期的指令，每个插槽多达 56 个核心，支持 8 通道 DDR5 内存，有效提升了内存带宽与速度。同时，英特尔® AMX 针对广泛的硬件和软件优化，通过提供矩阵类型的运算，为深度学习推理和训练提供显著的性能提升。

青云 AI 在线推理服务采用了 BigDL-LLM 作为大语言模型推理的运行时 (runtime)。BigDL-LLM 是英特尔开源的大语言模型库，能够在广泛的英特尔 XPU 上运行，如移动或桌面的 CPU/GPU、服务器 CPU/GPU，以及云端等设备，并提供了优化的性能表现。这一库支持对任何基于 PyTorch 的模型进行低比特优化，包括 FP4、INT4、NF4、FP8、INT8 、BF16、FP16 等多种数据类型，能显著降低内存占用并提供极低的访问延迟。

BigDL-LLM 提供的低比特模型优化技术是一种全面的解决方案，旨在降低大型模型的资源消耗。该技术包括模型量化和访存优化，同时对英特尔硬件进行了特定的优化措施，比如在 CPU 上应用 AVX2、AVX512、AMX 指令集，在 GPU 上则充分利用 XMX 计算单元。此外，BigDL-LLM 还借鉴并优化了多种业界先进的低比特技术，如 llama.cpp、bitsandbytes、qlora 等，并支持多种模型量化类型和策略，如对称 / 非对称量化、低比特类型（INT4、NF4、FP8）及策略（例如 GPTQ，AWQ, GGUF 等）。以 INT4 低比特优化为例，BigDL-LLM 将权重映射到 INT4 的整数空间时，会记录缩放系数，随后在推理过程中使用这个缩放系数恢复原先的权重，最大可能的保持了推理过程中的准确性。

这些技术显著减少了存储空间需求，降低了内存或显存的占用和访问压力，使得大语言模型的性能得到大幅度提升。同时，这些技术使得在显存较小的设备上运行大型模型成为可能，为资源受限的环境提供了强大的支持。

下图展示了 BigDL-LLM 进行 INT4 推理的主要步骤。用户通过 BigDL-LLM 提供的 Hugging Face Transformer API 将模型加载到内存中，在加载的同时，BigDL-LLM 通过低比特量化技术将模型的权重进行映射（比如将 FP16 的系数映射到 INT4 的整数空间），随后对用户提供的输入序列进行标准的推理工作。BigDL-LLM 支持用户使用熟悉的 Hugging Face Transformer API 进行推理工作。

同时，BigDL-LLM 也采纳了 vLLM 的设计，在解码阶段（decoding）实现了 continuous batching 的优化方案。这一优化能够极大的提高推理服务的吞吐量，并保持很低的延迟。BigDL-LLM 也提供了在英特尔 XPU 平台上的大语言模型微调方案。BigDL-LLM 实现了 QLoRA 微调技术，应用了低比特量化，分布式数据并行，高性能通信等优化，极大的降低了微调过程中对大量内存使用的需求。BigDL-LLM 的大语言模型微调方案在集群或者云环境中可以进行轻松的扩展。

用户可以使用 BigDL-LLM 创建和运行大语言模型应用，使用标准的 PyTorch API（例如 Hugging Face Transformers, LangChain 等）在英特尔的 XPU 硬件平台上进行大语言模型的推理和微调。BigDL-LLM 已经适配和验证了众多的业界主流大语言模型，包括 LLaMA/LLaMA2, ChatGLM2/ChatGLM3, Mixtral, Mistral, Falcon, MPT, Dolly/Dolly-v2, Bloom, StarCoder, Whisper, InternLM, Baichuan, QWen, MOSS 等等大语言模型。

青云在 E4 云主机和 BigDL-LLM 上测试和验证了十几个主流大语言模型，并进行了性能分析和评估。结果显示，基于英特尔软硬件的大语言模型推理服务可以满足实时，低延迟的性能要求。经过 BigDL-LLM 的量化和低比特性能优化后，Baichuan2 7B 等模型可以获得高达 7 倍的性能加速比。

测试数据由青云提供。英特尔并不控制或审计第三方数据。请您审查该内容，咨询其他来源，并确认提及数据是否准确。

总结和展望

本文介绍了青云基于第四代英特尔^®至强^®可扩展处理器发布的青云 AI 在线推理服务（公测版），以及其背后使用的大语言模型技术和优化。基于第四代英特尔^®至强^®可扩展处理器和 BigDL-LLM 大语言模型方案，青云 AI 在线推理服务提供了业界领先的低延迟响应速度。青云还将继续深入探索大语言模型的更多使用场景，与英特尔持续密切合作，在更多英特尔硬件平台（例如第五代至强可扩展处理器等）上推出大语言模型推理的解决方案，同时不断扩展大语言模型的应用能力，提供例如模型微调等功能（基于 BigDL-LLM QLoRA），为用户提供更好的体验和更大的价值。

2024 年中，青云模型市场正式版将随青云 AI 智算平台新版本一起发布，为智算平台用户和开发者提供丰富的开源模型、数据集、模型管理、模型部署、模型推理等服务。

致谢

特别感谢英特尔刘芍君、史栋杰，青云王士郁、何颜廷对本文内容的贡献。

评论 2 条评论

发布

thinkpc

考虑到青云AI在线推理服务和英特尔处理器的结合，在延迟和性能优化上确实标新立异。但仅凭硬件优化未必足够，未来发展需重视算法与硬件的协同进化，这可能是真正实现突破的关键所在。

2024-02-28 09:49 · 北京

 0 回复

thinkpc

理解技术应用的意义需从更广角度审视。青云AI在线推理服务通过优化提升大模型性能，开启AI推理新篇章，展现技术进步如何赋能实际应用，值得更深入探讨其带来的变革性影响。

2024-02-28 09:48 · 北京

 0 回复

没有更多了

创作场景

云服务遇到大模型：青云 AI 在线推理服务解析

青云 AI 在线推理服务

BigDL-LLM 大语言模型推理和性能优化

总结和展望

评论 2 条评论

2021 China DevOpsDays演讲实录

图数据和知识图谱，数字化转型的新引擎

入驻快讯｜欢迎字节跳动终端技术团队正式入驻 InfoQ 写作平台！

Apache ShenYu源码阅读系列-注册中心实现原理之Http注册

Linux一学就会之Centos8软件包的管理和安装之yum管理软件包

java开发SSM框架整合之MyBatis动态SQL

Hadoop完全分布式安装部署

服务端质量保证体系(三) CI原子能力建设

开源机器学习数据库OpenMLDB贡献者计划全面启动

「Oracle」Oracle 数据库备份还原

少儿春晚表演

华为AppCube入选Forrester《中国低代码平台市场分析报告》

Redis 核心知识点归纳总结，从根上理解 Redis

大数据开发之数据读取—Pandas vs Spark

python入门难？十之八九是因为python 协程吧！

TDengine在雷达台站运维管理系统中的落地实践

编程谜题：提升你解决问题的训练场

云原生时代的"应用级"多云管理

基于HTML、CSS和JS的年龄计算器

星环科技 TDH8.1.0：全新升级为用户带来极致体验

服务端质量保证体系(二) 流水线标准化建设

Redis 很强，不懂使用规范就糟蹋了

恒源云(GPUSHARE)_云GPU服务器如何使用PyCharm？

服务端质量保证体系(一) 全流程规范管理

Java 动态代理之 InvocationHandler 最简单的入门教程

Go语言学习查缺补漏ing Day3

【分布式技术专题】「OSS中间件系列」Minio的Server端服务的架构和实战搭建

QA进阶成长感悟录

从源码分析快速实现对新开源软件的检测

Redis 分布式锁的正确实现原理演化历程与 Redisson 实战总结

前端开发框架react 之UmiJS

创作场景

云服务遇到大模型：青云 AI 在线推理服务解析

青云 AI 在线推理服务

BigDL-LLM 大语言模型推理和性能优化

总结和展望

评论 2 条评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载