硬核干货——《中小企业 AI 实战指南》免费下载! 了解详情
写点什么

多语种 AI 新标杆!Hugging Face 官宣 mmBERT,一款模型搞定 1,800+ 语言

作者:Robert Krzaczyński

  • 2025-10-01
    北京
  • 本文字数:1109 字

    阅读完需:约 4 分钟

大小:551.96K时长:03:08
多语种 AI 新标杆!Hugging Face 官宣 mmBERT,一款模型搞定 1,800+ 语言

Hugging Face 正式推出 mmBERT,这款全新的多语种编码器在超过 3 万亿个 token、涵盖 1,833 种语言的数据上完成训练。基于 ModernBERT 架构,mmBERT 成为首个在多语种理解任务中显著超越长期基准 XLM-R 的模型。


与一次性覆盖所有语言的传统做法不同,mmBERT 采用了渐进式训练策略:先从 60 种高资源语言入手,逐步扩展至 110 种,最终覆盖全部 1,833 种语言。同时,模型将遮蔽比例从 30% 降至 5%,并调整采样分布,更好地体现资源稀缺语言的特点。


这一“渐进式语言扩展”策略被验证为扩大语言覆盖范围、避免过拟合的关键举措。例如,法罗语(Faroese)和提格利尼亚语(Tigrinya)仅在最后 1,000 亿 token 的衰减阶段引入,但得益于这一策略,它们仍显示出显著的性能提升。


社区成员对这一平衡策略表示关注。企业 AI 从业者 Yasir Altaf 提问

在覆盖 1,833 种语言的阶段,如何保障资源稀缺语言的表现不被弱化?每种语言是否设有“最小有效信号”的门槛?即便模型技术上训练了所有语言,我们又能在多大程度上确保前 50 种语言不会主导整体表现?


对此,Hugging Face 工程师、Sentence Transformers 维护者 Tom Aarsen 回答

我们通过评估那些仅在训练最后阶段才引入的低资源语言(如 Tigrinya 和 Faroese)来验证这一策略。结果显示,这些语言在最后阶段加入后,模型性能明显提升。


mmBERT 基于 ModernBERT 架构,延续了其高效、快速且节省内存的特点,包括 Flash Attention 2 和无填充序列处理,可支持长达 8,192 token 的上下文。


尽管基础模型仅拥有 1.1 亿个非嵌入参数,但其性能仍可媲美许多更大规模的多语种模型。此外还提供一个 1.4 亿参数的精简版本,适合轻量级任务。


mmBERT 采用 22 层编码器设计,支持最多 8,192 token 的序列。基础模型有 1.1 亿个非嵌入参数(总计 3.07 亿),而 1.4 亿参数的轻量版本可提高效率。


一个显著特点是模型合并。团队并未依赖单一训练模型,而是通过 TIES 合并方法,将三种变体,以英语为主的模型、覆盖 110 种语言的模型以及全语言模型,整合在一起,从而在各个领域保持稳定的性能表现。


在各类评测中,mmBERT 一直优于早期多语种编码器。在 GLUE 基准测试中,尽管训练数据中英语占比不足四分之一,表现依旧不输英语专属模型。在 XTREME 测试中,它在跨语言任务(如 XNLI 和 TyDiQA)上有明显提升,同时在结构化预测任务中也保持竞争力。在检索任务中,mmBERT 在 MTEB v2 多语种基准上创下新高,并在英语赛道上与英语专属模型持平。


mmBERT 证明,多语种编码器的规模化并不必以效率为代价。通过在覆盖范围与针对性优化之间取得平衡,它为检索、分类及跨语言任务设定了新的性能标杆。


原文链接:

https://www.infoq.com/news/2025/09/mmbert/

2025-10-01 08:002

评论

发布
暂无评论

区块链内容创作全攻略:海报、白皮书与视频的视觉化革命

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

AI 大赛丨总奖池 50 万元!「1000 AIdea 应用计划」等你来战!

声网

提升研发运维效能:Pacvue 泊客电商的 GenAI 技术实践

亚马逊云科技 (Amazon Web Services)

LED虚拟生产:革新影视制作的新技术

Dylan

虚拟 LED LED display LED显示屏 LED屏幕

HF下载太慢?Alaya NeW的加速神器让你的模型"飞"起来!

九章云极DataCanvas

人工智能 深度学习 存储 nlp

YashanDB 知识库|如何判断表空间是否启用了加密?

数据库砖家

数据库

智源研究院发布开源中文互联网语料库CCI 4.0 新增高质量英文数据与合成数据

智源研究院

自研时序大模型讲解(4月29日)直播回顾

Apache IoTDB

HTTP接口数据也能定时同步入湖?用DolphinScheduler×SeaTunnel快速搞定!

白鲸开源

大数据 开源 Apache DolphinScheduler 任务调度

AI 叙事回归、机构入场推升比特币:加密市场迎来新一轮上涨

PowerVerse

比特币 AI eth 加密市场

探索如何提升自动化测试的效率--代码评审和脚本生成

夏兮。

AI 自动化测试 端到端测试新范式

《算法导论(第4版)》阅读笔记:p11-p13

codists

算法

jd 商品评论Api接口 全解析指南

代码忍者

个人评论 JD

DeFi开发系统软件开发:技术架构与生态重构

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

公链钱包开发:技术逻辑与产品设计实践

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 代币开发 交易所开发公链开发

Arthas jad(字节码文件反编译成源代码 )

刘大猫

监控 Arthas 监控工具 jad 字节码文件

YashanDB|使用 Kettle 同步 PostgreSQL 数据时报错:pg_hba.conf 无法识别连接?

数据库砖家

数据库

Java 字符串拼接性能实测:基于 JMH 的微基准测试

歆晨技术笔记

YashanDB|崖山共享集群(YAC):从怀疑到认可,技术细节决定产品成色

数据库砖家

数据库

黑龙江密码测评你需要知道的基本知识

黑龙江陆陆信息测评部

DApp开发:开启去中心化应用新时代

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

用通义灵码全新智能体+MCP实现从设计稿到前端代码,个人免费用

阿里云云效

阿里云 云原生 通义灵码

YashanDB|Kettle 同步大表报错 “无法创建 Java 虚拟机”?别忘了调整内存

数据库砖家

数据库

YashanDB|select 0.00 的返回类型居然变了?警惕 JDBC 下的类型映射差异!

数据库砖家

数据库

开源之夏2025 | DolphinScheduler邀你挑战技术任务,赢取丰厚奖金!

白鲸开源

大数据 开源 大数据任务调度 Apache DolphinScheduler 开源之夏

用通义灵码全新智能体+MCP实现从设计稿到前端代码,个人免费用

阿里巴巴云原生

阿里云 阿里云云原生 通义灵码

【AI】DeepWiki 页面转换成 Markdown 保存 - Chrome 扩展

非晓为骁

chrome AI DeepWiki Extension

智源研究院发布开源中文互联网语料库CCI 4.0 新增高质量英文数据与合成数据

智源研究院

最新版LangChain4j发布!终于修复了这个恶心的问题

王磊

当AI智能体通过稳定币自主交易和结算,如何利好DeCloud?

PowerVerse

AI 加密 去中心化 稳定币 DeCloud

简化以太坊 L1,让DePIN基础更稳固

PowerVerse

以太坊 #区块链 DePIN 去中心化云算力

多语种 AI 新标杆!Hugging Face 官宣 mmBERT,一款模型搞定 1,800+ 语言_AI&大模型_InfoQ精选文章