
Hugging Face 正式推出 mmBERT,这款全新的多语种编码器在超过 3 万亿个 token、涵盖 1,833 种语言的数据上完成训练。基于 ModernBERT 架构,mmBERT 成为首个在多语种理解任务中显著超越长期基准 XLM-R 的模型。
与一次性覆盖所有语言的传统做法不同,mmBERT 采用了渐进式训练策略:先从 60 种高资源语言入手,逐步扩展至 110 种,最终覆盖全部 1,833 种语言。同时,模型将遮蔽比例从 30% 降至 5%,并调整采样分布,更好地体现资源稀缺语言的特点。
这一“渐进式语言扩展”策略被验证为扩大语言覆盖范围、避免过拟合的关键举措。例如,法罗语(Faroese)和提格利尼亚语(Tigrinya)仅在最后 1,000 亿 token 的衰减阶段引入,但得益于这一策略,它们仍显示出显著的性能提升。
社区成员对这一平衡策略表示关注。企业 AI 从业者 Yasir Altaf 提问:
在覆盖 1,833 种语言的阶段,如何保障资源稀缺语言的表现不被弱化?每种语言是否设有“最小有效信号”的门槛?即便模型技术上训练了所有语言,我们又能在多大程度上确保前 50 种语言不会主导整体表现?
对此,Hugging Face 工程师、Sentence Transformers 维护者 Tom Aarsen 回答:
我们通过评估那些仅在训练最后阶段才引入的低资源语言(如 Tigrinya 和 Faroese)来验证这一策略。结果显示,这些语言在最后阶段加入后,模型性能明显提升。
mmBERT 基于 ModernBERT 架构,延续了其高效、快速且节省内存的特点,包括 Flash Attention 2 和无填充序列处理,可支持长达 8,192 token 的上下文。
尽管基础模型仅拥有 1.1 亿个非嵌入参数,但其性能仍可媲美许多更大规模的多语种模型。此外还提供一个 1.4 亿参数的精简版本,适合轻量级任务。
mmBERT 采用 22 层编码器设计,支持最多 8,192 token 的序列。基础模型有 1.1 亿个非嵌入参数(总计 3.07 亿),而 1.4 亿参数的轻量版本可提高效率。
一个显著特点是模型合并。团队并未依赖单一训练模型,而是通过 TIES 合并方法,将三种变体,以英语为主的模型、覆盖 110 种语言的模型以及全语言模型,整合在一起,从而在各个领域保持稳定的性能表现。
在各类评测中,mmBERT 一直优于早期多语种编码器。在 GLUE 基准测试中,尽管训练数据中英语占比不足四分之一,表现依旧不输英语专属模型。在 XTREME 测试中,它在跨语言任务(如 XNLI 和 TyDiQA)上有明显提升,同时在结构化预测任务中也保持竞争力。在检索任务中,mmBERT 在 MTEB v2 多语种基准上创下新高,并在英语赛道上与英语专属模型持平。
mmBERT 证明,多语种编码器的规模化并不必以效率为代价。通过在覆盖范围与针对性优化之间取得平衡,它为检索、分类及跨语言任务设定了新的性能标杆。
原文链接:
评论