
Hugging Face 发布了Transformers v5的首个候选版本,这标志着 Transformers 库的一个重要进展。自从五年前的 v4 版本发布以来,Transformers 已经从一个专门的模型工具包发展成为 AI 开发中的关键资源,目前每天的安装量超过三百万次,总安装量超过 12 亿次。
不同于以往专注于某项重点特性,Transformers v5 是一次全面的结构更新,旨在实现长期可持续性。其核心目标是互操作性,即确保模型定义、训练工作流、推理引擎和部署目标能够尽可能无缝地协同工作。正如一位社区成员总结的那样:
v5 不仅仅是一次版本号的提升,更像是 Hugging Face 承认 Transformers 是实际上的开放模型注册中心,并试图基于这个角色进行整理。
此次发布的中心主题是简化。Hugging Face 继续推进模块化架构,减少模型实现之间的重复,并标准化诸如注意力机制(attention mechanisms)这样的通用组件。引入一些抽象的概念,如通用的 AttentionInterface,从而使不同的实现可以整洁地共存,而不会使单个模型文件变得臃肿,从而能够更容易地添加新架构并维护现有架构。
Transformers v5 同时缩小了其后端的关注范围。PyTorch 现在是主框架,而对 TensorFlow 和 Flax 的支持则将逐步淘汰,以支持更深层次的优化和清晰度。与此同时,Hugging Face 正与 JAX 生态系统紧密合作,通过合作伙伴库确保兼容性,而不是在 Transformers 内部花费重复性的精力。
在训练方面,该库扩大了对大规模预训练的支持。模型初始化和并行处理被重新设计,以便更整洁地与 Megatron、Nanotron 和 TorchTitan 等工具集成,同时保持与流行微调框架如 Unsloth、Axolotl、TRL 和 LlamaFactory 的高度兼容性。
Transformers v5 通过简化 API、持续批处理和分页注意力(paged attention)提高了推理效率,并引入了“transformers serve”组件,用来实现与 OpenAI 兼容的 API 部署模型。它不追求与 vLLM 或 SGLang 等专业引擎竞争,而是旨在成为一个可靠的参考后端,能很好地与它们集成。
另外一个变化是量化(quantization)作为第一等概念的地位。权重加载重新进行了设计,以更自然的方式支持低精度格式,这反映一种现实情况,那就是当前许多最先进的模型以 8 位或 4 位的变体形式发布,并部署在为此类工作负载专门优化的硬件上。
总体而言,Transformers v5 更多地是强化其作为共享基础设施的角色,而不是增加表面功能。通过标准化模型定义,并与训练、推理和部署工具紧密结合,Hugging Face 将 Transformers 定位为下一阶段开放 AI 发展中稳定的“生态系统粘合剂”。
完整的技术细节可以在GitHub上的官方发布说明中找到,在候选版本阶段团队正在积极收集反馈。
原文链接:
Transformers v5 Introduces a More Modular and Interoperable Core











评论