写点什么

极客说|Phi-4 模型的 4 位量化与 vLLM 高速推理

  • 2025-01-17
    北京
  • 本文字数:1819 字

    阅读完需:约 6 分钟

大小:931.23K时长:05:17
极客说|Phi-4 模型的 4 位量化与 vLLM 高速推理

Phi-4 的模型参数量是 14B,这使它在推理的时候比较耗费内存。因此如果我们想要在边缘端运行,需要对它进行量化。量化的手段很多,此前也介绍过,使用 Auto-Round GTPQ 格式的方法量化即可。


我们看一下量化到四位以后,推理时占用的显存以及效果。


针对量化版本,我写了一个 vLLM 推理的程序,推理速度很快,占用 11GB 显存,推理的结果也很准确。这样我们就可以在消费显卡上运行 Phi-4 了。


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    推理代码见 repo:

    https://github.com/xinyuwei-david/david-share.git 下的

    DeepLearning/Phi4


    接下来,我将介绍 Phi-4 整体的架构。


    近期,微软推出了最新的大型语言模型 Phi-4,它在保持相对较小参数规模的情况下,展示了令人瞩目的性能。Phi-4 通过创新的训练方法和高质量的数据,在多个自然语言处理任务中取得了优异的成绩。本文将详细介绍 Phi-4 的模型架构、训练策略、性能表现,以及如何在本地计算机上对其进行微调。


    Phi-4 简介


    Phi-4 是微软 Phi 系列模型的最新成员,参数量为 140 亿。这一规模在大型语言模型中属于中等,但 Phi-4 通过精心设计的训练流程和数据,展现出了与更大参数量模型相媲美的性能。



    模型架构与特点


    • 基于 Transformer 的架构


    Phi-4 采用了经典的 Transformer 解码器架构,共有 40 层网络结构。这种架构在自然语言处理任务中被证明是高效且有效的,能够捕捉文本序列中的长期依赖关系。


    • 上下文长度的扩展


    初始的 Phi-4 支持 4,096 个 Token 的上下文长度。在中期训练阶段,微软将上下文长度扩展到了 16,000 个 Token,使得模型能够处理更长的文本输入,适应更多样化的任务需求。


    • 分词器与词汇表


    Phi-4 使用了 OpenAI 的 tiktoken 分词器,词汇表大小为 100,352。这一选择兼顾了多语言支持和分词效果的优化。


    • 注意力机制与位置编码


    Phi-4 在模型中使用了全局注意力机制(Full Attention),对整个上下文序列进行自注意力计算。此外,模型采用了旋转位置编码(RoPE)并在中期训练中调整了基频,以适应更长的上下文长度。


    创新的训练策略


    • 合成数据的广泛应用


    与传统模型主要依赖互联网抓取的数据不同,Phi-4 大量使用了合成数据进行训练。微软通过多种技术生成了大约 4,000 亿个 Token 的高质量合成数据,包括:

    • 多代理提示:利用多个语言模型生成多样化的数据。

    • 自我修正流程:模型生成初始输出后,进行自我评估和修正。

    • 指令反转:从已有的输出生成对应的输入指令,增强模型的指令理解能力。


    合成数据具有结构化、渐进式的特点,能够引导模型逐步学习复杂的推理和问题解决能力。


    • 精选的有机数据


    除了合成数据,Phi-4 还从多种来源精心挑选了高质量的有机数据,如网页内容、书籍、代码库和问答集合。通过严格的过滤和去重,确保了数据的高质量和多样性。


    • 多阶段训练流程


    Phi-4 的训练分为多个阶段:

    • 预训练阶段:建立模型的基础语言理解能力,使用了约 10 万亿个 Token 的数据。

    • 中期训练阶段:扩展上下文长度至 16,000 个 Token,进一步提升模型的性能。

    • 后训练阶段(微调):通过监督微调(SFT)和直接偏好优化(DPO)等方法,优化模型的输出,使其更符合人类的偏好。


    先进的训练技术


    • 关键 Token 搜索(PTS)


    PTS 是一种创新的训练方法,通过识别对模型输出影响最大的关键 Token,针对性地优化模型在这些位置的预测。这种方法提高了训练效率,增强了模型在关键决策点上的表现。


    • 改进的直接偏好优化(DPO)


    在 DPO 过程中,Phi-4 结合了 PTS 方法,使用高质量的偏好数据优化模型的输出。通过评估模型在关键 Token 上的表现,进一步提升了优化效果。


    性能评估


    • 外部评测基准


    Phi-4 在多个公开的评测基准上表现出色:

    • MMLU:在多任务语言理解测试中取得了优异成绩。

    • GPQA:在研究生水平的 STEM 问答中表现突出。

    • MATH:在数学问题解决方面展现了强大的能力。

    • HumanEval:在代码生成和理解任务中超越了同等规模的模型。


    • 内部评测套件(PhiBench)


    微软开发了内部评测套件 PhiBench,涵盖了代码调试、代码补全、数学推理等任务,帮助团队深入了解模型的能力和不足,并有针对性地进行改进。


    模型的局限性


    尽管 Phi-4 性能强大,但仍存在一些局限性:

    • 指令遵循能力:在严格格式化输出方面表现不佳。

    • 冗长的回答:有时会对简单问题给出过于详细的答案。

    • 对话能力:优化于单轮查询,缺乏持续对话的能力。


    这些局限性主要源于模型的训练重点在于推理和问题解决,而非对话或指令遵循。


    更多精彩内容请点击下载

    《极客说|微软新模型:Phi-4 来了》

    《利用 AI 和 DevOps 重新定义开发人员体验》

    《SAP on Microsoft Cloud》

    《智能GitHub Copilot副驾驶®提示和技巧》

    2025-01-17 15:1212363

    评论

    发布
    暂无评论
    发现更多内容

    向量检索在大模型应用场景的技术和实践

    百度Geek说

    人工智能 百度 企业号 8 月 PK 榜

    户外LED显示屏如何设计散热?

    Dylan

    设计 环境 LED显示屏 户外LED显示屏 led显示屏厂家

    2023 Gartner RPA魔力象限报告解读:国产厂商“破纪录”跃升意味着什么?

    王吉伟频道

    RPA Gartner RPA魔力象限 超自动化 AI大语言模型

    柏睿数据再度入选Gartner《中国数据库管理系统市场指南》代表厂商

    新消费日报

    精准测试探索 | 京东云技术团队

    京东科技开发者

    测试 精准测试 代码覆盖率 企业号 8 月 PK 榜 静态链路

    对线面试官 - TCP_IP四层网络模型经典连环问

    派大星

    TCP/IP Java 面试题

    cilium 原理之sock_connect

    沃趣科技

    数据库 云计算 ebpf cilium 沃趣科技

    产品管理经验分享:删掉 500 个产品待办事项后,我逃离了「假敏捷」

    LigaAI

    产品经理 敏捷开发 需求管理 产品管理 企业号 8 月 PK 榜

    用户空间协议栈设计和netmap综合指南

    华为云开发者联盟

    后端 开发 华为云 华为云开发者联盟 企业号 8 月 PK 榜

    汽车及汽车零部件行业云MES解决方案

    万界星空科技

    解决方案 MES系统 汽车

    聚焦Web前端安全:最新揭秘漏洞防御方法 | 京东云技术团队

    京东科技开发者

    WEB安全 漏洞 前端安全 企业号 8 月 PK 榜 XXS

    [国产化-银河麒麟v10桌面版]FTP适配(FtpClient)

    alexgaoyh

    Java web 麒麟操作系统 ftp服务 FtpClient commons.net

    13. Python的文件操作

    茶桁

    Python 文件操作

    vivo 场景下的 H5无障碍适配实践

    vivo互联网技术

    前端 H5 移动端适配 无障碍适配 体验提升

    亚马逊云科技助力涂鸦智能出海,家庭能源管理系统(HEMS)将成智能家居新沃土

    Lily

    实践指南-前端性能提升 270% | 京东云技术团队

    京东科技开发者

    性能优化 前端 企业号 8 月 PK 榜

    面试官:说说Spring中@NotEmpty、@NotBlank、@NotNull 的区别和使用

    java易二三

    程序员 架构 计算机

    岳阳等保测评机构有几家?在哪里?电话是多少?

    行云管家

    等级保护 等保测评 岳阳

    小灯塔系列-中小企业数字化转型系列研究——费控测评报告

    向量智库

    第五期(2022-2023)传统行业云原生技术落地调研报告——央国企篇

    York

    容器 云原生 IT 平台工程 央国企数字化转型

    火山引擎DataTester:AB实验平台未来演进趋势是怎样的?

    字节跳动数据平台

    大数据 AB实验 对比试验 企业号 8 月 PK 榜 数字化增长

    直播弹幕源码开发很难?一招教你解决

    山东布谷网络科技

    直播源码

    《操作系统实战 45 讲》笔记1——引导部分

    袁世超

    操作系统 Cosmos LMOS

    打造自己的站长在线工具箱

    echeverra

    站长工具

    鲲鹏助力清华大学夺取SolverChallenge2023竞赛冠军

    彭飞

    银河麒麟高级操作系统V10助力联通云建设打出组合拳

    openEuler

    Linux 云原生 操作系统 中间件 openEuler

    一篇让小孩都看的懂的ChatGPT原理解析

    小宝

    大模型 ChatGPT

    所谓的职场抗压,到底咋回事

    老张

    职场经验

    数据库运维是什么意思?主要工作包含哪些?

    行云管家

    数据库 数据库运维 IT运维

    小灯塔系列-中小企业数字化转型系列研究-BPM测评报告

    向量智库

    火山引擎VeDI助力零售品牌私域运营 实现与会员高效“沟通”

    字节跳动数据平台

    大数据 云服务 数据平台 火山引擎 企业号 8 月 PK 榜

    极客说|Phi-4 模型的 4 位量化与 vLLM 高速推理_微软_微软中国MSDN_InfoQ精选文章