
IBM 最近宣布了 Granite 4.0 系列小语言模型。与更大规模的模型相比,该模型系列旨在提供可接受准确性的同时,提供更快的速度和显著降低的运营成本。Granite 4.0 采用了新的混合 Mamba/transformer 架构,大大减少了内存需求,使 Granite 能够在成本显著更低的 GPU 上运行。
IBM 表示:
大型语言模型的 GPU 内存需求通常以加载模型权重所需的 RAM 量来报告。但许多企业用例——特别是那些涉及大规模部署、复杂环境中的代理 AI 或 RAG 系统——需要长时间的上下文、同时批量推理多个并发模型实例,或两者兼有。
根据 IBM 的说法,Granite 能够提供超过 70%的 RAM 需求下降,以处理长输入和多个并发批次。即使上下文长度或批次大小增加,推理速度据说仍然很高。与更大的模型相比,它的准确性依旧保持竞争力,特别是在指令遵循和函数调用基准测试中。
IBM 将这些改进的特性归功于其混合架构,该架构结合了少量的标准 transformer 风格的注意力层和大部分的 Mamba 层——更具体地说,是Mamba-2。每 1 个 Transformer 块有 9 个 Mamba 块,Granite 在 Mamba 部分相对于上下文长度实现了线性扩展(与 transformers 中的二次扩展相比),以及来自 transformer 注意力的局部上下文依赖(对于上下文学习或少量提示很重要)。
此外,Granite 作为一个专家混合系统,任何前向传递中只使用权重的一个子集。这也有助于保持较低的推理成本。
Granite 采用混合架构提供了三种模型变体,方便地称为 Micro、Tiny 和 Small,以满足不同的用例。在一端,Micro(3B 参数)针对的是高容量、低复杂性任务,其中速度、成本和效率优先(例如,RAG、摘要、文本提取、文本分类)。在另一端,Graphite Small(总共 32B 参数,其中 9B 活跃)旨在用于需要更强性能的企业工作流,而无需前沿模型的高昂成本(例如,多工具代理和客户支持自动化)。另一个模型,Graphite Nano(0.3B 和 1M 参数),针对的是连接和计算能力有限的边缘设备。
一项基于 Mamba 的语言模型的实证研究暗示了 Mamba-2 混合架构与 Transformer 和纯 SSM 模型在某些任务上的潜力:
我们的主要目标是在相同的超参数下,为训练了高达 3.5T token 的 8B 参数模型提供 Mamba、Mamba-2、Mamba-2-Hybrid(包含 Mamba-2、注意力和 MLP 层)和 Transformer 之间的严格正面对比。
\[...\] 我们的结果表明,虽然基于纯 SSM 的模型在许多任务上与 Transformer 模型相匹配或超过,但 Mamba 和 Mamba-2 模型在需要强大的复制或上下文学习能力的任务上落后于 Transformer 模型(例如,五次 MMLU、电话簿查找或长上下文推理)。相比之下,我们发现 8B 参数的 Mamba-2-Hybrid 在所有 12 个标准任务上超过了 8B 参数的 Transformer(平均+2.65 分),预计在推理时生成 token 的速度高达 8 倍。
IBM 在 Apache 2.0 许可下开源了 Granite 4.0 模型。这与 Meta 的 LLaMa 许可形成对比,后者的开源性质受到开源社区成员的质疑。至于 Llama 4 社区许可协议,它规定其许可权利不适用于居住在欧盟的人或总部设在欧盟的公司。
Granite 模型可在Hugging Face和watsonx.ai上获取。感兴趣的读者可以在专门的在线游乐场中尝试该模型。IBM 提供了微调Granite的指南。此外还提供了一个Colab示例,将 Granite 应用于合同分析。
针对 IBM Granite 的人工智能管理系统(AIMS),IBM 已获得 ISO/IEC 42001:2023认证。ISO/IEC 42001 标准旨在以结构化的方式解决 AI 带来的伦理、透明度和持续学习挑战,管理风险和机会。
原文链接:New IBM Granite 4 Models to Reduce AI Costs with Inference-Efficient Hybrid Mamba-2 Architecture







评论