写点什么

Hugging Face 发布 FinePDFs:基于 PDF 文档构建的 3 万亿 Token 数据集

作者:Robert Krzaczyński

  • 2025-09-17
    北京
  • 本文字数:960 字

    阅读完需:约 3 分钟

大小:464.84K时长:02:38
Hugging Face 发布 FinePDFs:基于 PDF 文档构建的 3 万亿 Token 数据集

Hugging Face 正式发布 FinePDFs,这是全球最大的纯 PDF 公开语料库。该数据集涵盖了 1733 种语言的 4.75 亿份文档,总计约 3 万亿个 Token。凭借 3.65TB 的规模,FinePDFs 开创了开放训练数据集的新纪元,让人们可以利用长期以来因为过于复杂和昂贵而无法处理的资源。

 

尽管大多数大规模语言模型数据集依赖于 HTML 源,如 Common Crawl,但 PDF 有着独特的优势。它们往往记录了更高质量的、特定领域的内容,特别是在法律、学术和技术写作领域。然而,从 PDF 中提取可用文本一直都很困难:有些包含嵌入式文本,其他的需要 OCR,而格式问题可能会使解析工作变得非常复杂。

 

为了解决了这些挑战,FinePDFs 混合使用了文本提取(Docling)、 GPU 驱动的 OCR(RolmOCR)以及去重、语言识别和 PII 匿名化等技术。Hugging Face 表示,这种双重策略使他们既能大规模地处理文档,又能在面对各种格式时保证提取质量。

 

该数据集涵盖了广泛的语言,其中英语占比最高,有超过 1.1 万亿个 Token。西班牙语、德语、法语、俄语和日语各自贡献了超过 1000 亿个 Token。它也能代表一些比较小的语种,有 978 种语言贡献了超过 100 万个 Token。

 

为了评估 FinePDFs,Hugging Face 在该数据集的子集上训练了 1.67B 参数模型。结果显示,FinePDFs 的表现几乎与 SmolLM-3 Web 相当,后者是一个最先进的 HTML 数据集。更重要的是,在基准测试中,将两者相结合显著提升了性能,强化了 PDF 可以带来互补知识的观点。

 

对评估结果的强调立即引起了社区的质疑。在 LinkedIn 上,数据科学家 Arthur Wuhrmann 问道

 

怎么评估的?得分是多少?

 

Hugging Face 机器学习工程师 Hynek Kydlíček 回应说,团队追踪了各种基准测试中正确选择的概率。这表明他们关注的是基于概率的报告,而不是单一的分数。

 

研究人员指出,该数据集有推进长上下文训练的潜力,因为 PDF 文档通常比网页长得多。有些 AI 社区成员将其视为数据透明度的里程碑,因为 Hugging Face 不仅发布了数据集,还记录了其处理流程,从 OCR 检测到去重。

 

FinePDFs 遵循开放数据共享署名许可,可免费用于研究和开发。该数据集托管在 Hugging Face Hub 上,可通过 datasets、huggingface_hub 和内部处理库 Datatrove 访问。

 

声明:本文为 InfoQ 翻译,未经许可禁止转载。

 

原文链接:

https://www.infoq.com/news/2025/09/finepdfs/

2025-09-17 11:301

评论

发布
暂无评论

Elasticsearch document id 生成方式

escray

elastic 七日更 28天写作 死磕Elasticsearch 60天通过Elastic认证考试

一周信创舆情观察(1.11~1.17)

统小信uos

阿里用5大核心技术+10大高级框架+200个经典案例全面解答了并发网络编程

996小迁

编程 架构 面试 笔记 亿级流量

【CSS】带边框的三角形(position)

德育处主任

css3 大前端 html/css CSS小技巧 28天写作

Java 程序经验小结:接口优先于反射机制

后台技术汇

28天写作

HTML(五)——建立表格

程序员的时光

程序员 大前端 七日更 28天写作

《认识产品经理》课后总结

DB

产品经理训练营

JUST技术:提升基于GPS轨迹的路网推测精确度

京东科技开发者

人工智能

安卓开发视频教程!2021年Android常见面试题,附面试题答案

欢喜学安卓

android 程序员 面试 移动开发

华为云登顶HotpotQA多跳知识推理问答评测

华为云开发者联盟

深度学习 华为 华为云

TARS 染色日志|收集记录特定日志

TARS基金会

微服务 运维 日志 日志分析 TARS

亲历者说 | 完整记录一年多考拉海购的云原生之路

阿里巴巴云原生

阿里云 容器 微服务 云原生 dubbo

Seata RPC 模块的重构之路

阿里巴巴云原生

阿里云 开源 云原生 RPC seata

【转载】Springboot2.x的AOP默认代理方式

程序员架构进阶

Java aop SpringBoot 2 动态代理

Soul网关源码阅读(九)插件配置加载初探

Java 源码阅读 网关

【Http】- Http之状态码

双木之林

网络 HTTP

数字货币交易所APP开发|数字货币交易所软件系统开发

系统开发

数字人民币带来更好支付体验 没有网络时也能使用

CECBC

数字人民币

android高级开发面试!面试中Handler这些必备知识点你都知道吗?面试真题解析

欢喜学安卓

android 程序员 面试 移动开发

场外OTC交易系统开发|场外OTC交易软件APP开发

系统开发

DBA 的效率加速器——CloudQuery v1.3.2 上线!

BinTools图尔兹

数据库 运维 开发日志 dba 数据库管理工具

Spring Boot 中集成Redis

武哥聊编程

Java redis springboot SpringBoot 2 28天写作

17家国产数据库厂商的2020年度事件大盘点:项目签约与验收、新版本发布等

墨天轮

数据库 国产化

Redis 学习笔记 09:数据库

架构精进之路

redis 七日更 28天写作

19年末我从外包辞职了,10000+小时后,走进字节跳动拿了offer

Java架构追梦

Java 架构 字节跳动 面试

Git神作!2021年Java春招高级面试指南,吃透至少P7

比伯

Java 编程 架构 面试 计算机

Spring 源码学习 16:单例 Bean 创建

程序员小航

Java spring 源码

双仓合约量化交易系统开发搭建

薇電13242772558

区块链 数字货币

python+requests接口测试基础

测试人生路

软件测试

1121212

熙羽1

区块链高水平专业人才稀缺成发展掣肘

CECBC

区块链人才

Hugging Face 发布 FinePDFs:基于 PDF 文档构建的 3 万亿 Token 数据集_AI&大模型_InfoQ精选文章