Hugging Face 发布了FineTranslations,这是一个大规模多语言数据集,包含覆盖英语和其他 500 多种语言的并行文本、超过 1 万亿个 Token。该数据集是通过使用 Gemma3 27B 将 FineWeb2 语料库中的非英语内容翻译成英语来创建的,整个数据生成流程被设计成可复现且公开可查的。
该数据集主要用于提高机器翻译的质量,特别是将英语翻译成其他语言。对于许多资源比较少的语言,效果还比较差。通过将非英语的原始文本翻译成英语,FineTranslations 提供了适用于对现有翻译模型进行微调的大规模并行数据。内部评估表明,在训练仅限英语的模型时,生成的英语文本效果与 FineWeb 相当,并且这些数据可以在翻译之外的任务中重用。
除了翻译之外,Hugging Face 报告称,生成的英语语料库保留了源语言的大量文化和上下文信息。在内部实验中,使用翻译后的英语文本训练出来的模型,其性能与使用原始 FineWeb 数据集训练的模型相当。这表明,对于仅限英语的模型预训练来说,FineTranslations 也可以作为一个高质量的补充。
该数据集来源于FineWeb2,它聚合了 2013 年至 2024 年间从 CommonCrawl 快照中收集的多语言 Web 内容。为了减少由高度重复或特定领域内容(如宗教文本和维基百科页面)所导致的偏差,其中只包含 bible_wiki_ratio 低于 0.5 的语言子集。每种语言最多处理了 500 亿个 Token,优先应用 FineWeb2-HQ 的质量分类器(如有可用),否则使用随机抽样。
Hugging Face 使用datatrove框架完成了大规模的翻译工作。该框架在 Hugging Face 集群上实现了强大的检查点机制、异步执行和 GPU 的高效利用。文档被分割成最多包含 512 个 Token 的块,为了保持跨段落上下文的连贯性,他们采用了滑动窗口策略。为了减轻大规模翻译中常见的问题,Hugging Face 引入了额外的保护措施,包括早期对恶意或垃圾内容的分类、严格的格式约束,以及确保换行与结构一致性的后处理流程。
每个数据集条目包含原始文本块和翻译文本块、语言和字符集标识符、Token 计数、教育质量评分,以及指向原始 CommonCrawl 数据源的引用。该数据集可通过 Hugging Face 数据集库访问(支持流式处理,可进行大规模处理),或直接通过基于 datatrove 的管道使用。
Achref Karoui 在评论此次发布时表示:
太棒了!这次发布将弥合差距,让各个社区都能够更好地将流行模型与他们的语言相匹配。
FineTranslations 现已在 Hugging Face 上提供。该数据集遵循开放数据共享署名(ODC-By)v1.0 许可,其使用受 CommonCrawl 的条款约束。
原文链接:
https://www.infoq.com/news/2026/01/huggingface-fine-translations/





