写点什么

多语种 AI 新标杆!Hugging Face 官宣 mmBERT,一款模型搞定 1,800+ 语言

作者:Robert Krzaczyński

  • 2025-10-01
    北京
  • 本文字数:1109 字

    阅读完需:约 4 分钟

大小:551.96K时长:03:08
多语种 AI 新标杆!Hugging Face 官宣 mmBERT,一款模型搞定 1,800+ 语言

Hugging Face 正式推出 mmBERT,这款全新的多语种编码器在超过 3 万亿个 token、涵盖 1,833 种语言的数据上完成训练。基于 ModernBERT 架构,mmBERT 成为首个在多语种理解任务中显著超越长期基准 XLM-R 的模型。


与一次性覆盖所有语言的传统做法不同,mmBERT 采用了渐进式训练策略:先从 60 种高资源语言入手,逐步扩展至 110 种,最终覆盖全部 1,833 种语言。同时,模型将遮蔽比例从 30% 降至 5%,并调整采样分布,更好地体现资源稀缺语言的特点。


这一“渐进式语言扩展”策略被验证为扩大语言覆盖范围、避免过拟合的关键举措。例如,法罗语(Faroese)和提格利尼亚语(Tigrinya)仅在最后 1,000 亿 token 的衰减阶段引入,但得益于这一策略,它们仍显示出显著的性能提升。


社区成员对这一平衡策略表示关注。企业 AI 从业者 Yasir Altaf 提问

在覆盖 1,833 种语言的阶段,如何保障资源稀缺语言的表现不被弱化?每种语言是否设有“最小有效信号”的门槛?即便模型技术上训练了所有语言,我们又能在多大程度上确保前 50 种语言不会主导整体表现?


对此,Hugging Face 工程师、Sentence Transformers 维护者 Tom Aarsen 回答

我们通过评估那些仅在训练最后阶段才引入的低资源语言(如 Tigrinya 和 Faroese)来验证这一策略。结果显示,这些语言在最后阶段加入后,模型性能明显提升。


mmBERT 基于 ModernBERT 架构,延续了其高效、快速且节省内存的特点,包括 Flash Attention 2 和无填充序列处理,可支持长达 8,192 token 的上下文。


尽管基础模型仅拥有 1.1 亿个非嵌入参数,但其性能仍可媲美许多更大规模的多语种模型。此外还提供一个 1.4 亿参数的精简版本,适合轻量级任务。


mmBERT 采用 22 层编码器设计,支持最多 8,192 token 的序列。基础模型有 1.1 亿个非嵌入参数(总计 3.07 亿),而 1.4 亿参数的轻量版本可提高效率。


一个显著特点是模型合并。团队并未依赖单一训练模型,而是通过 TIES 合并方法,将三种变体,以英语为主的模型、覆盖 110 种语言的模型以及全语言模型,整合在一起,从而在各个领域保持稳定的性能表现。


在各类评测中,mmBERT 一直优于早期多语种编码器。在 GLUE 基准测试中,尽管训练数据中英语占比不足四分之一,表现依旧不输英语专属模型。在 XTREME 测试中,它在跨语言任务(如 XNLI 和 TyDiQA)上有明显提升,同时在结构化预测任务中也保持竞争力。在检索任务中,mmBERT 在 MTEB v2 多语种基准上创下新高,并在英语赛道上与英语专属模型持平。


mmBERT 证明,多语种编码器的规模化并不必以效率为代价。通过在覆盖范围与针对性优化之间取得平衡,它为检索、分类及跨语言任务设定了新的性能标杆。


原文链接:

https://www.infoq.com/news/2025/09/mmbert/

2025-10-01 08:0014209

评论

发布
暂无评论

浅析JVM invokedynamic指令和Java Lambda语法|得物技术

得物技术

Java JVM 企业号2024年8月PK榜

面试官:Leader崩溃Follower不够新怎么办?

王磊

如何设计真正的实时数据湖?

tapdata

实时数据湖 数据集处理流程 湖仓一体是什么

百度搜索的RLHF性能优化实践

百度Geek说

百度 算法 性能优化

Oracle数据库客户端 SQLPro for Oracle for mac v1.0.302激活版

Rose

【我在京东做产研】校招 2 年,个人角度(成长)回顾 - 行且知

京东科技开发者

MySQL中为什么要使用索引合并(Index Merge)?

不在线第一只蜗牛

MySQL 数据库 索引

黑神话悟空-快速部署

京东科技开发者

TapData 信创数据源 | 国产信创数据库 Vastbase 数据同步指南,加速国产化进程,推进自主创新建设

tapdata

数据同步

淘宝 API 接口的实际应用案例

Noah

日常工作中需要避免的9个React坏习惯

不在线第一只蜗牛

JavaScript 前端 React

亲测兼容M1 PS2019 for mac中文直装版 附Photoshop2019破解补丁

Rose

智能引领,服务升级:哈银消费金融以科技力量重塑金融服务体验

极客天地

mysql磁盘碎片整理

京东科技开发者

SD-WAN组网对比传统组网有哪些优点?

Ogcloud

SD-WAN 企业组网 SD-WAN组网 SD-WAN服务商 SDWAN

mac强大的安卓文件传输工具:Android File Transfer for mac 版

你的猪会飞吗

Mac软件 Android File Transfer mac破解软件下载

Rectangle Pro for Mac v3.0.31激活版 窗口管理布局工具

Rose

网易伏羲AI Agent 技术分享:揭秘AOP框架在《永劫无间》手游Copilot的应用实践

网易伏羲

aop agent 网易伏羲 Copilot 游戏AI

利用淘宝商品评论API返回值优化商品转化率:策略与实践

代码忍者

TikTok直播网络加速方法

Ogcloud

TikTok tiktok运营 tiktok直播 tiktok直播专线 tiktok矩阵

解析阿里巴巴中国站商品详情API返回值的更新与变化

技术冰糖葫芦

API Explorer API 测试 pinduoduo API

多语种 AI 新标杆!Hugging Face 官宣 mmBERT,一款模型搞定 1,800+ 语言_AI&大模型_InfoQ精选文章