写点什么

新的 IBM Granite 4 模型通过可高效推理的混合 Mamba-2 架构降低人工智能成本

作者:Bruno Couriol

  • 2025-11-24
    北京
  • 本文字数:1403 字

    阅读完需:约 5 分钟

大小:735.69K时长:04:11
新的IBM Granite 4模型通过可高效推理的混合Mamba-2架构降低人工智能成本

IBM 最近宣布了 Granite 4.0 系列小语言模型。与更大规模的模型相比,该模型系列旨在提供可接受准确性的同时,提供更快的速度和显著降低的运营成本。Granite 4.0 采用了新的混合 Mamba/transformer 架构,大大减少了内存需求,使 Granite 能够在成本显著更低的 GPU 上运行。

 

IBM 表示:

 

大型语言模型的 GPU 内存需求通常以加载模型权重所需的 RAM 量来报告。但许多企业用例——特别是那些涉及大规模部署、复杂环境中的代理 AI 或 RAG 系统——需要长时间的上下文、同时批量推理多个并发模型实例,或两者兼有。

 

根据 IBM 的说法,Granite 能够提供超过 70%的 RAM 需求下降,以处理长输入和多个并发批次。即使上下文长度或批次大小增加,推理速度据说仍然很高。与更大的模型相比,它的准确性依旧保持竞争力,特别是在指令遵循和函数调用基准测试中。

 

IBM 将这些改进的特性归功于其混合架构,该架构结合了少量的标准 transformer 风格的注意力层和大部分的 Mamba 层——更具体地说,是Mamba-2。每 1 个 Transformer 块有 9 个 Mamba 块,Granite 在 Mamba 部分相对于上下文长度实现了线性扩展(与 transformers 中的二次扩展相比),以及来自 transformer 注意力的局部上下文依赖(对于上下文学习或少量提示很重要)。

 

此外,Granite 作为一个专家混合系统,任何前向传递中只使用权重的一个子集。这也有助于保持较低的推理成本。

 

Granite 采用混合架构提供了三种模型变体,方便地称为 Micro、Tiny 和 Small,以满足不同的用例。在一端,Micro(3B 参数)针对的是高容量、低复杂性任务,其中速度、成本和效率优先(例如,RAG、摘要、文本提取、文本分类)。在另一端,Graphite Small(总共 32B 参数,其中 9B 活跃)旨在用于需要更强性能的企业工作流,而无需前沿模型的高昂成本(例如,多工具代理和客户支持自动化)。另一个模型,Graphite Nano(0.3B 和 1M 参数),针对的是连接和计算能力有限的边缘设备。

 

一项基于 Mamba 的语言模型的实证研究暗示了 Mamba-2 混合架构与 Transformer 和纯 SSM 模型在某些任务上的潜力:

 

我们的主要目标是在相同的超参数下,为训练了高达 3.5T token 的 8B 参数模型提供 Mamba、Mamba-2、Mamba-2-Hybrid(包含 Mamba-2、注意力和 MLP 层)和 Transformer 之间的严格正面对比。

 

\[...\] 我们的结果表明,虽然基于纯 SSM 的模型在许多任务上与 Transformer 模型相匹配或超过,但 Mamba 和 Mamba-2 模型在需要强大的复制或上下文学习能力的任务上落后于 Transformer 模型(例如,五次 MMLU、电话簿查找或长上下文推理)。相比之下,我们发现 8B 参数的 Mamba-2-Hybrid 在所有 12 个标准任务上超过了 8B 参数的 Transformer(平均+2.65 分),预计在推理时生成 token 的速度高达 8 倍。

 

IBM 在 Apache 2.0 许可下开源了 Granite 4.0 模型。这与 Meta 的 LLaMa 许可形成对比,后者的开源性质受到开源社区成员的质疑。至于 Llama 4 社区许可协议,它规定其许可权利不适用于居住在欧盟的人或总部设在欧盟的公司。

 

Granite 模型可在Hugging Facewatsonx.ai上获取。感兴趣的读者可以在专门的在线游乐场中尝试该模型。IBM 提供了微调Granite的指南。此外还提供了一个Colab示例,将 Granite 应用于合同分析。

 

针对 IBM Granite 的人工智能管理系统(AIMS),IBM 已获得 ISO/IEC 42001:2023认证。ISO/IEC 42001 标准旨在以结构化的方式解决 AI 带来的伦理、透明度和持续学习挑战,管理风险和机会。

 

原文链接:New IBM Granite 4 Models to Reduce AI Costs with Inference-Efficient Hybrid Mamba-2 Architecture

2025-11-24 11:217

评论

发布
暂无评论

后端技术复习

卢卡多多

技术栈 6月月更

Django API 开发:一个 Todo 应用的后端

宇宙之一粟

6月月更

C#入门系列(五) -- 运算符

陈言必行

C# 6月月更

Flink 通过 State Processor API 实现状态的读取和写入

JasonLee实时计算

flink

区块链mass哈希競猜dapp游戏开发源代码(多游戏)

开发微hkkf5566

Fabric.js 居中元素 🎗️

德育处主任

fabric canvas FabricJS Fabric.js 6月月更

关于 SAP Commerce Cloud 的 Sample Setup Github 仓库

汪子熙

typescript angular SAP commerce 6月月更

【LeetCode】数组中第 K 个独一无二的字符串Java题解

Albert

LeetCode 6月月更

Squarespace 和 WordPress 的区别

海拥(haiyong.site)

WordPress 6月月更

JavaScript迭代器

大熊G

JavaScript 前端 6月月更

数据库每日一题---第3天:大的国家

知心宝贝

数据库 算法 前端 后端 6月月更

抖音大举进军电商领域:这步棋应该如何下

石头IT视角

详述Java中sort排序函数

工程师日月

算法 Java EE 6月月更

Web Service进阶(一)运行原理

No Silver Bullet

6月月更 Web Service 运行原理

Python环境搭建

芯动大师

Python编程 6月月更 Python环境

浅谈网络攻防中守方的准备工作

kk冲击波

6月月更 攻防演练

Web Service进阶(三)HTTP-GET, HTTP-POST and SOAP的比较

No Silver Bullet

soap 6月月更 Web Service HTTP-GET HTTP-POST

Sentinel与OpenFeign 服务熔断那些事

牧小农

sentinel openfeign

【Spring 学习笔记(四)】Spring Bean 集合注入和自动装配

倔强的牛角

spring Java EE 6月月更

《WebRTC源码深入剖析》总结

音视频专家-李超

源码分析 音视频 WebRTC 源码剖析

700行无用 纯 CSS 祝考生 金榜高粽《1_bit 的无用 CSS 代码 》

1_bit

CSS html 前端

Linux下可执行程序的Shell传参格式规范

乌龟哥哥

6月月更

修改gradle脚本,加速spring4.1源码编译构建速度

程序员欣宸

Java spring Gradle 6月月更

Kubernetes社区发行版:开源容器云OpenShift Origin(OKD)认知

山河已无恙

k8s openshift

以购物清单为例讲述 Redux 的状态如何在 Flutter 多个组件间共享

岛上码农

flutter 安卓开发 ios 开发 跨平台应用 6月月更

Linux驱动开发_数码相册项目、360WIFI驱动移植介绍

DS小龙哥

6月月更

Flink on yarn 远程调试源码

JasonLee实时计算

flink

使用 TensorFlow 和 Express.js 实现AI图像识别

devpoint

tensorflow Express 6月月更

EasyRecovery15官方最新版下载功能介绍

茶色酒

EasyRecovery Easyrecovery破解 EasyRecovery15

【盲盒APP】开发功能版块及功能介绍

WDL22119

java构造器(构造方法、构造函数)

写代码两年半

面试 javase 构造函数 6月月更

新的IBM Granite 4模型通过可高效推理的混合Mamba-2架构降低人工智能成本_AI&大模型_InfoQ精选文章