把握行业变革关键节点,12 月 19 日 - 20 日,AICon北京站即将重磅启幕! 了解详情
写点什么

新的 IBM Granite 4 模型通过可高效推理的混合 Mamba-2 架构降低人工智能成本

作者:Bruno Couriol

  • 2025-11-24
    北京
  • 本文字数:1403 字

    阅读完需:约 5 分钟

大小:735.69K时长:04:11
新的IBM Granite 4模型通过可高效推理的混合Mamba-2架构降低人工智能成本

IBM 最近宣布了 Granite 4.0 系列小语言模型。与更大规模的模型相比,该模型系列旨在提供可接受准确性的同时,提供更快的速度和显著降低的运营成本。Granite 4.0 采用了新的混合 Mamba/transformer 架构,大大减少了内存需求,使 Granite 能够在成本显著更低的 GPU 上运行。

 

IBM 表示:

 

大型语言模型的 GPU 内存需求通常以加载模型权重所需的 RAM 量来报告。但许多企业用例——特别是那些涉及大规模部署、复杂环境中的代理 AI 或 RAG 系统——需要长时间的上下文、同时批量推理多个并发模型实例,或两者兼有。

 

根据 IBM 的说法,Granite 能够提供超过 70%的 RAM 需求下降,以处理长输入和多个并发批次。即使上下文长度或批次大小增加,推理速度据说仍然很高。与更大的模型相比,它的准确性依旧保持竞争力,特别是在指令遵循和函数调用基准测试中。

 

IBM 将这些改进的特性归功于其混合架构,该架构结合了少量的标准 transformer 风格的注意力层和大部分的 Mamba 层——更具体地说,是Mamba-2。每 1 个 Transformer 块有 9 个 Mamba 块,Granite 在 Mamba 部分相对于上下文长度实现了线性扩展(与 transformers 中的二次扩展相比),以及来自 transformer 注意力的局部上下文依赖(对于上下文学习或少量提示很重要)。

 

此外,Granite 作为一个专家混合系统,任何前向传递中只使用权重的一个子集。这也有助于保持较低的推理成本。

 

Granite 采用混合架构提供了三种模型变体,方便地称为 Micro、Tiny 和 Small,以满足不同的用例。在一端,Micro(3B 参数)针对的是高容量、低复杂性任务,其中速度、成本和效率优先(例如,RAG、摘要、文本提取、文本分类)。在另一端,Graphite Small(总共 32B 参数,其中 9B 活跃)旨在用于需要更强性能的企业工作流,而无需前沿模型的高昂成本(例如,多工具代理和客户支持自动化)。另一个模型,Graphite Nano(0.3B 和 1M 参数),针对的是连接和计算能力有限的边缘设备。

 

一项基于 Mamba 的语言模型的实证研究暗示了 Mamba-2 混合架构与 Transformer 和纯 SSM 模型在某些任务上的潜力:

 

我们的主要目标是在相同的超参数下,为训练了高达 3.5T token 的 8B 参数模型提供 Mamba、Mamba-2、Mamba-2-Hybrid(包含 Mamba-2、注意力和 MLP 层)和 Transformer 之间的严格正面对比。

 

\[...\] 我们的结果表明,虽然基于纯 SSM 的模型在许多任务上与 Transformer 模型相匹配或超过,但 Mamba 和 Mamba-2 模型在需要强大的复制或上下文学习能力的任务上落后于 Transformer 模型(例如,五次 MMLU、电话簿查找或长上下文推理)。相比之下,我们发现 8B 参数的 Mamba-2-Hybrid 在所有 12 个标准任务上超过了 8B 参数的 Transformer(平均+2.65 分),预计在推理时生成 token 的速度高达 8 倍。

 

IBM 在 Apache 2.0 许可下开源了 Granite 4.0 模型。这与 Meta 的 LLaMa 许可形成对比,后者的开源性质受到开源社区成员的质疑。至于 Llama 4 社区许可协议,它规定其许可权利不适用于居住在欧盟的人或总部设在欧盟的公司。

 

Granite 模型可在Hugging Facewatsonx.ai上获取。感兴趣的读者可以在专门的在线游乐场中尝试该模型。IBM 提供了微调Granite的指南。此外还提供了一个Colab示例,将 Granite 应用于合同分析。

 

针对 IBM Granite 的人工智能管理系统(AIMS),IBM 已获得 ISO/IEC 42001:2023认证。ISO/IEC 42001 标准旨在以结构化的方式解决 AI 带来的伦理、透明度和持续学习挑战,管理风险和机会。

 

原文链接:New IBM Granite 4 Models to Reduce AI Costs with Inference-Efficient Hybrid Mamba-2 Architecture

2025-11-24 11:213474

评论

发布
暂无评论

Python里for循环要遍历的数据很多很大怎么办?

算法的秘密

深入学习 XML 解析器及 DOM 操作技术

小万哥

xml 程序人生 编程语言 软件工程 前端开发

Kubernetes反模式避坑指南

俞凡

Kubernetes 最佳实践

文心一言 VS 讯飞星火 VS chatgpt (216)-- 算法导论16.2 3题

福大大架构师每日一题

福大大架构师每日一题

未来经济世界里,理想的财务规划与分析团队

智达方通

全面预算管理 企业规划

华为云网站高可用解决方案引爆华为云开年采购季:助力多场景下业务高可用、数据高可靠

轶天下事

SQL注入攻击有什么解决办法

德迅云安全杨德俊

【线上问题】记一次公司日志基础组件SPI使用不当导致业务中断

Disaster

bug java 并发

1688API接口推荐:1688店铺所有商品数据接口

tbapi

1688API 1688店铺所有商品接口 1688店铺数据接口

敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

极客天地

CAD如何与EXCEL数据关联

极客天地

解开命运之"结",重拾现实自由——《1Q84》中的奇幻现实与人生哲学

少油少糖八分饱

读书笔记 命运 村上春树 小说推荐 1Q84

玩转数据-Python数据采集的方法-淘宝商品详情接口

技术冰糖葫芦

API 接口

华为配置Hotspot2.0无线网络示例

知孤云出岫

网络安全

博客平台选择指南:找到适合程序员的完美舞台

何书悦

程序人生 写作

阿里巴巴面试经验!Java高级面试指南手册程序员必备系列

阿里、莫言

Java java面试 金三银四

WorkPlus领先的IM厂家,为企业提供高质量的沟通解决方案

BeeWorks

WorkPlus行政单位内部即时通讯软件的最佳解决方案

BeeWorks

WorkPlus Meet局域网视频会议软件的领先解决方案

BeeWorks

Vben-Admin 错误 Cannot destructure property 'VITE_GLOB_APP_TITLE' of 't' as it is undefined

麦兜

新的IBM Granite 4模型通过可高效推理的混合Mamba-2架构降低人工智能成本_AI&大模型_InfoQ精选文章