写点什么

Transformers v5 引入了更具模块化和互操作性的核心

作者:Robert Krzaczyński

  • 2025-12-23
    北京
  • 本文字数:1086 字

    阅读完需:约 4 分钟

大小:529.08K时长:03:00
Transformers v5引入了更具模块化和互操作性的核心

Hugging Face 发布了Transformers v5的首个候选版本,这标志着 Transformers 库的一个重要进展。自从五年前的 v4 版本发布以来,Transformers 已经从一个专门的模型工具包发展成为 AI 开发中的关键资源,目前每天的安装量超过三百万次,总安装量超过 12 亿次。

 

不同于以往专注于某项重点特性,Transformers v5 是一次全面的结构更新,旨在实现长期可持续性。其核心目标是互操作性,即确保模型定义、训练工作流、推理引擎和部署目标能够尽可能无缝地协同工作。正如一位社区成员总结的那样:

v5 不仅仅是一次版本号的提升,更像是 Hugging Face 承认 Transformers 是实际上的开放模型注册中心,并试图基于这个角色进行整理。

 

此次发布的中心主题是简化。Hugging Face 继续推进模块化架构,减少模型实现之间的重复,并标准化诸如注意力机制(attention mechanisms)这样的通用组件。引入一些抽象的概念,如通用的 AttentionInterface,从而使不同的实现可以整洁地共存,而不会使单个模型文件变得臃肿,从而能够更容易地添加新架构并维护现有架构。

 

Transformers v5 同时缩小了其后端的关注范围。PyTorch 现在是主框架,而对 TensorFlow 和 Flax 的支持则将逐步淘汰,以支持更深层次的优化和清晰度。与此同时,Hugging Face 正与 JAX 生态系统紧密合作,通过合作伙伴库确保兼容性,而不是在 Transformers 内部花费重复性的精力。

 

在训练方面,该库扩大了对大规模预训练的支持。模型初始化和并行处理被重新设计,以便更整洁地与 Megatron、Nanotron 和 TorchTitan 等工具集成,同时保持与流行微调框架如 Unsloth、Axolotl、TRL 和 LlamaFactory 的高度兼容性。

 

Transformers v5 通过简化 API、持续批处理和分页注意力(paged attention)提高了推理效率,并引入了“transformers serve”组件,用来实现与 OpenAI 兼容的 API 部署模型。它不追求与 vLLM 或 SGLang 等专业引擎竞争,而是旨在成为一个可靠的参考后端,能很好地与它们集成。

 

另外一个变化是量化(quantization)作为第一等概念的地位。权重加载重新进行了设计,以更自然的方式支持低精度格式,这反映一种现实情况,那就是当前许多最先进的模型以 8 位或 4 位的变体形式发布,并部署在为此类工作负载专门优化的硬件上。

 

总体而言,Transformers v5 更多地是强化其作为共享基础设施的角色,而不是增加表面功能。通过标准化模型定义,并与训练、推理和部署工具紧密结合,Hugging Face 将 Transformers 定位为下一阶段开放 AI 发展中稳定的“生态系统粘合剂”。

 

完整的技术细节可以在GitHub上的官方发布说明中找到,在候选版本阶段团队正在积极收集反馈。

 

原文链接:

Transformers v5 Introduces a More Modular and Interoperable Core

2025-12-23 10:001

评论

发布
暂无评论

大数据培训 | 电商用户行为分析之订单支付实时监控

@零度

大数据 flink

基于Vite+React构建在线Excel

葡萄城技术团队

SpreadJS vite

Vone新闻 | 旺链科技赋能众享链网自组织管理,打造企业级联盟DAO

旺链科技

区块链 产业区块链 DAO 自组织协作

navicat定时任务无效

源字节1号

并购增资或将有望启动东软越通新动能?

E科讯

CRMEB知识付费如何二开阿里云短信功能

CRMEB

web前端培训redux的理解与应用

@零度

前端开发

技术分享| WVP+ZLMediaKit实现摄像头GB28181推流播放

anyRTC开发者

音视频 推流 摄像头 GB28181 播放

图解OneFlow的学习率调整策略

OneFlow

前沿技术 学习率 调整策略

如何解决 Iterative 半监督训练 在 ASR 训练中难以落地的问题丨RTC Dev Meetup

RTE开发者社区

RTC Dev Meetup 生态专栏 语音处理

如何使用 Django Forms 创建表单?

海拥(haiyong.site)

Python django 6月月更

如何用 Redis 实现一个分布式锁

Ayue、

redis 分布式锁

Wallys/DR6018-S/ 802.11AX MU-MIMO OFDMA / 2* GE PORTS/WIFI 6e / BAND DUAL CONCURRENT

wallys-wifi6

MySQL使用ReplicationConnection导致的连接失效分析与解决

转转技术团队

MySQL JDBC Java’ 数据库·

用OBS做直播推流简易教程

boshi

直播 OBS

基因检测,如何帮助患者对抗疾病?

阿里云弹性计算

高性能计算 生命科学 EHPC 基因检测

攻防演练合集 | 3个阶段,4大要点,蓝队防守全流程纲要解读

青藤云安全

网络安全 网络攻防 安全服务 攻防演练

Go 语言使用 MySQL 的常见故障分析和应对方法

百度Geek说

Go MySQL

Selenium Edge的IE模式

IT蜗壳-Tango

IT蜗壳教学 6月月更

冷板式、浸没式、喷淋式液冷散热能否引领高性能计算发展?

GPU算力

【二级等保】过二级等保用哪个堡垒机品牌好?

行云管家

网络安全 堡垒机 等级保护 二级等保 等保安全

不止于观测|阿里云可观测套件正式发布

阿里巴巴云原生

阿里云 云原生 可观测 套件

得物多活架构设计之路由服务设计

得物技术

架构 高可用 架构设计 双活 路由

java培训 | Java设计模式之装饰者设计模式

@零度

JAVA开发

数据中台稳定性的“四高” | StartDT Tech Lab 18

奇点云

数据库 大数据 数据中台 云原生

等保备案是什么意思?应该去哪里办理备案?

行云管家

等保 等级保护 等保备案 等级测评

想学习eTS开发?教你开发一款IQ-EQ测试应用

HarmonyOS开发者

HarmonyOS

大数据培训 | Flink如何监控恶意登录

@零度

大数据

首次曝光!唯一全域最高等级背后的阿里云云原生安全全景图

阿里巴巴云原生

阿里云 云原生 安全 可信云

Rancher 2.6 全新 Monitoring 快速入门

Rancher

Kubernetes k8s rancher

“芯”有灵“蜥”,万人在线!龙蜥社区走进 Intel MeetUp 精彩回顾

OpenAnolis小助手

开源 直播 Meetup 龙蜥社区 走进 Intel

Transformers v5引入了更具模块化和互操作性的核心_架构/框架_InfoQ精选文章