新的IBM Granite 4模型通过可高效推理的混合Mamba-2架构降低人工智能成本_AI&大模型



 写点什么



大小：735.69K时长：04:11

新的IBM Granite 4模型通过可高效推理的混合Mamba-2架构降低人工智能成本

IBM 最近宣布了 Granite 4.0 系列小语言模型。与更大规模的模型相比，该模型系列旨在提供可接受准确性的同时，提供更快的速度和显著降低的运营成本。Granite 4.0 采用了新的混合 Mamba/transformer 架构，大大减少了内存需求，使 Granite 能够在成本显著更低的 GPU 上运行。

IBM 表示：

大型语言模型的 GPU 内存需求通常以加载模型权重所需的 RAM 量来报告。但许多企业用例——特别是那些涉及大规模部署、复杂环境中的代理 AI 或 RAG 系统——需要长时间的上下文、同时批量推理多个并发模型实例，或两者兼有。

根据 IBM 的说法，Granite 能够提供超过 70%的 RAM 需求下降，以处理长输入和多个并发批次。即使上下文长度或批次大小增加，推理速度据说仍然很高。与更大的模型相比，它的准确性依旧保持竞争力，特别是在指令遵循和函数调用基准测试中。

IBM 将这些改进的特性归功于其混合架构，该架构结合了少量的标准 transformer 风格的注意力层和大部分的 Mamba 层——更具体地说，是Mamba-2。每 1 个 Transformer 块有 9 个 Mamba 块，Granite 在 Mamba 部分相对于上下文长度实现了线性扩展（与 transformers 中的二次扩展相比），以及来自 transformer 注意力的局部上下文依赖（对于上下文学习或少量提示很重要）。

此外，Granite 作为一个专家混合系统，任何前向传递中只使用权重的一个子集。这也有助于保持较低的推理成本。

Granite 采用混合架构提供了三种模型变体，方便地称为 Micro、Tiny 和 Small，以满足不同的用例。在一端，Micro（3B 参数）针对的是高容量、低复杂性任务，其中速度、成本和效率优先（例如，RAG、摘要、文本提取、文本分类）。在另一端，Graphite Small（总共 32B 参数，其中 9B 活跃）旨在用于需要更强性能的企业工作流，而无需前沿模型的高昂成本（例如，多工具代理和客户支持自动化）。另一个模型，Graphite Nano（0.3B 和 1M 参数），针对的是连接和计算能力有限的边缘设备。

一项基于 Mamba 的语言模型的实证研究暗示了 Mamba-2 混合架构与 Transformer 和纯 SSM 模型在某些任务上的潜力：

我们的主要目标是在相同的超参数下，为训练了高达 3.5T token 的 8B 参数模型提供 Mamba、Mamba-2、Mamba-2-Hybrid（包含 Mamba-2、注意力和 MLP 层）和 Transformer 之间的严格正面对比。

\[...\] 我们的结果表明，虽然基于纯 SSM 的模型在许多任务上与 Transformer 模型相匹配或超过，但 Mamba 和 Mamba-2 模型在需要强大的复制或上下文学习能力的任务上落后于 Transformer 模型（例如，五次 MMLU、电话簿查找或长上下文推理）。相比之下，我们发现 8B 参数的 Mamba-2-Hybrid 在所有 12 个标准任务上超过了 8B 参数的 Transformer（平均+2.65 分），预计在推理时生成 token 的速度高达 8 倍。

IBM 在 Apache 2.0 许可下开源了 Granite 4.0 模型。这与 Meta 的 LLaMa 许可形成对比，后者的开源性质受到开源社区成员的质疑。至于 Llama 4 社区许可协议，它规定其许可权利不适用于居住在欧盟的人或总部设在欧盟的公司。

Granite 模型可在Hugging Face和watsonx.ai上获取。感兴趣的读者可以在专门的在线游乐场中尝试该模型。IBM 提供了微调Granite的指南。此外还提供了一个Colab示例，将 Granite 应用于合同分析。

针对 IBM Granite 的人工智能管理系统（AIMS），IBM 已获得 ISO/IEC 42001:2023认证。ISO/IEC 42001 标准旨在以结构化的方式解决 AI 带来的伦理、透明度和持续学习挑战，管理风险和机会。

原文链接：New IBM Granite 4 Models to Reduce AI Costs with Inference-Efficient Hybrid Mamba-2 Architecture

发布

暂无评论

创作场景

新的 IBM Granite 4 模型通过可高效推理的混合 Mamba-2 架构降低人工智能成本

评论

后端技术复习

Django API 开发：一个 Todo 应用的后端

C#入门系列(五) -- 运算符

Flink 通过 State Processor API 实现状态的读取和写入

区块链mass哈希競猜dapp游戏开发源代码（多游戏）

Fabric.js 居中元素 🎗️

关于 SAP Commerce Cloud 的 Sample Setup Github 仓库

【LeetCode】数组中第 K 个独一无二的字符串Java题解

Squarespace 和 WordPress 的区别

JavaScript迭代器

数据库每日一题---第3天：大的国家

抖音大举进军电商领域：这步棋应该如何下

详述Java中sort排序函数

Web Service进阶(一)运行原理

Python环境搭建

浅谈网络攻防中守方的准备工作

Web Service进阶(三)HTTP-GET, HTTP-POST and SOAP的比较

Sentinel与OpenFeign 服务熔断那些事

【Spring 学习笔记(四)】Spring Bean 集合注入和自动装配

《WebRTC源码深入剖析》总结

700行无用纯 CSS 祝考生金榜高粽《1_bit 的无用 CSS 代码》

Linux下可执行程序的Shell传参格式规范

修改gradle脚本，加速spring4.1源码编译构建速度

Kubernetes社区发行版:开源容器云OpenShift Origin(OKD)认知

以购物清单为例讲述 Redux 的状态如何在 Flutter 多个组件间共享

Linux驱动开发_数码相册项目、360WIFI驱动移植介绍

Flink on yarn 远程调试源码

使用 TensorFlow 和 Express.js 实现AI图像识别

EasyRecovery15官方最新版下载功能介绍

【盲盒APP】开发功能版块及功能介绍

java构造器（构造方法、构造函数）

创作场景

新的 IBM Granite 4 模型通过可高效推理的混合 Mamba-2 架构降低人工智能成本

评论

推荐阅读

电子书

大厂实战PPT下载