Transformers v5引入了更具模块化和互操作性的核心

Hugging Face 发布了Transformers v5的首个候选版本，这标志着 Transformers 库的一个重要进展。自从五年前的 v4 版本发布以来，Transformers 已经从一个专门的模型工具包发展成为 AI 开发中的关键资源，目前每天的安装量超过三百万次，总安装量超过 12 亿次。

不同于以往专注于某项重点特性，Transformers v5 是一次全面的结构更新，旨在实现长期可持续性。其核心目标是互操作性，即确保模型定义、训练工作流、推理引擎和部署目标能够尽可能无缝地协同工作。正如一位社区成员总结的那样：

v5 不仅仅是一次版本号的提升，更像是 Hugging Face 承认 Transformers 是实际上的开放模型注册中心，并试图基于这个角色进行整理。

此次发布的中心主题是简化。Hugging Face 继续推进模块化架构，减少模型实现之间的重复，并标准化诸如注意力机制（attention mechanisms）这样的通用组件。引入一些抽象的概念，如通用的 AttentionInterface，从而使不同的实现可以整洁地共存，而不会使单个模型文件变得臃肿，从而能够更容易地添加新架构并维护现有架构。

Transformers v5 同时缩小了其后端的关注范围。PyTorch 现在是主框架，而对 TensorFlow 和 Flax 的支持则将逐步淘汰，以支持更深层次的优化和清晰度。与此同时，Hugging Face 正与 JAX 生态系统紧密合作，通过合作伙伴库确保兼容性，而不是在 Transformers 内部花费重复性的精力。

在训练方面，该库扩大了对大规模预训练的支持。模型初始化和并行处理被重新设计，以便更整洁地与 Megatron、Nanotron 和 TorchTitan 等工具集成，同时保持与流行微调框架如 Unsloth、Axolotl、TRL 和 LlamaFactory 的高度兼容性。

Transformers v5 通过简化 API、持续批处理和分页注意力（paged attention）提高了推理效率，并引入了“transformers serve”组件，用来实现与 OpenAI 兼容的 API 部署模型。它不追求与 vLLM 或 SGLang 等专业引擎竞争，而是旨在成为一个可靠的参考后端，能很好地与它们集成。

另外一个变化是量化（quantization）作为第一等概念的地位。权重加载重新进行了设计，以更自然的方式支持低精度格式，这反映一种现实情况，那就是当前许多最先进的模型以 8 位或 4 位的变体形式发布，并部署在为此类工作负载专门优化的硬件上。

总体而言，Transformers v5 更多地是强化其作为共享基础设施的角色，而不是增加表面功能。通过标准化模型定义，并与训练、推理和部署工具紧密结合，Hugging Face 将 Transformers 定位为下一阶段开放 AI 发展中稳定的“生态系统粘合剂”。

完整的技术细节可以在GitHub上的官方发布说明中找到，在候选版本阶段团队正在积极收集反馈。

原文链接：

Transformers v5 Introduces a More Modular and Interoperable Core

创作场景

Transformers v5 引入了更具模块化和互操作性的核心