写点什么

Hugging Face 发布 FinePDFs:基于 PDF 文档构建的 3 万亿 Token 数据集

作者:Robert Krzaczyński

  • 2025-09-17
    北京
  • 本文字数:960 字

    阅读完需:约 3 分钟

大小:464.84K时长:02:38
Hugging Face 发布 FinePDFs:基于 PDF 文档构建的 3 万亿 Token 数据集

Hugging Face 正式发布 FinePDFs,这是全球最大的纯 PDF 公开语料库。该数据集涵盖了 1733 种语言的 4.75 亿份文档,总计约 3 万亿个 Token。凭借 3.65TB 的规模,FinePDFs 开创了开放训练数据集的新纪元,让人们可以利用长期以来因为过于复杂和昂贵而无法处理的资源。

 

尽管大多数大规模语言模型数据集依赖于 HTML 源,如 Common Crawl,但 PDF 有着独特的优势。它们往往记录了更高质量的、特定领域的内容,特别是在法律、学术和技术写作领域。然而,从 PDF 中提取可用文本一直都很困难:有些包含嵌入式文本,其他的需要 OCR,而格式问题可能会使解析工作变得非常复杂。

 

为了解决了这些挑战,FinePDFs 混合使用了文本提取(Docling)、 GPU 驱动的 OCR(RolmOCR)以及去重、语言识别和 PII 匿名化等技术。Hugging Face 表示,这种双重策略使他们既能大规模地处理文档,又能在面对各种格式时保证提取质量。

 

该数据集涵盖了广泛的语言,其中英语占比最高,有超过 1.1 万亿个 Token。西班牙语、德语、法语、俄语和日语各自贡献了超过 1000 亿个 Token。它也能代表一些比较小的语种,有 978 种语言贡献了超过 100 万个 Token。

 

为了评估 FinePDFs,Hugging Face 在该数据集的子集上训练了 1.67B 参数模型。结果显示,FinePDFs 的表现几乎与 SmolLM-3 Web 相当,后者是一个最先进的 HTML 数据集。更重要的是,在基准测试中,将两者相结合显著提升了性能,强化了 PDF 可以带来互补知识的观点。

 

对评估结果的强调立即引起了社区的质疑。在 LinkedIn 上,数据科学家 Arthur Wuhrmann 问道

 

怎么评估的?得分是多少?

 

Hugging Face 机器学习工程师 Hynek Kydlíček 回应说,团队追踪了各种基准测试中正确选择的概率。这表明他们关注的是基于概率的报告,而不是单一的分数。

 

研究人员指出,该数据集有推进长上下文训练的潜力,因为 PDF 文档通常比网页长得多。有些 AI 社区成员将其视为数据透明度的里程碑,因为 Hugging Face 不仅发布了数据集,还记录了其处理流程,从 OCR 检测到去重。

 

FinePDFs 遵循开放数据共享署名许可,可免费用于研究和开发。该数据集托管在 Hugging Face Hub 上,可通过 datasets、huggingface_hub 和内部处理库 Datatrove 访问。

 

声明:本文为 InfoQ 翻译,未经许可禁止转载。

 

原文链接:

https://www.infoq.com/news/2025/09/finepdfs/

2025-09-17 11:304257

评论

发布
暂无评论

产品动态丨Android 13 高效适配全新升级

MobTech袤博科技

android

Java编程程序员怎么开发水平?

小谷哥

大数据课程培训和自学哪个比较适合?

小谷哥

华为被迫开源!从认知到落地SpringBoot企业级实战手册(完整版)

程序猿阿宇

Java 程序员、 秋招 构架 面试‘

字节一面:TCP 和 UDP 可以使用同一个端口吗?

程序员小毕

Java 程序员 面试 TCP 计算机网络

Okaleido上线聚变Mining模式,OKA通证当下产出的唯一方式

鳄鱼视界

用GaussDB(for Redis)存画像,推荐业务轻松降本60%

华为云开发者联盟

数据库 redis 存储 GaussDB ( for Redis ) 用户画像

怎么才能提高自己web前端技术呢?

小谷哥

2022秋招,Java岗最全面试攻略,吃透25个技术栈Offer拿到手软

程序猿阿宇

Java 面试题 面经 Java工程师 秋招

web前端开发技术学习比较靠谱

小谷哥

kafka的Docker镜像使用说明(wurstmeister/kafka)

程序员欣宸

kafka 7月月更

阿里云技术专家邓青琳:云上跨可用区容灾和异地多活最佳实践

阿里云弹性计算

异地多活 多活容灾

行云管家V6.5.1/2/3系列版本发布:数据库OpenAPI能力持续强化

行云管家

数据库 版本 IT运维 行云管家

基于Caffe ResNet-50网络实现图片分类(仅推理)的实验复现

华为云开发者联盟

人工智能 推理 昇腾 处理器

中文起,Python 字体反爬实战案例,再一点

梦想橡皮擦

Python 爬虫 7月月更

敞开大门的支付宝,是商家的新掘金地吗?

ToB行业头条

物理防火墙是什么?有什么作用?

行云管家

网络安全 防火墙

想要做好软件测试,可以先了解AST、SCA和渗透测试

华为云开发者联盟

云计算 安全 软件测试 后端 开发

基于Netty,从零开发IM(四):编码实践篇(系统优化)

JackJiang

网络编程 Netty 即时通讯 im开发 开源im

兆骑科创海内外高层次创新创业人才服务平台,双创成果转化平台

兆骑科创凤阁

Plus版SBOM:流水线物料清单PBOM

SEAL安全

开源 软件供应链 软件物料清单 SBOM 软件供应链安全

如何把css渐变背景玩出花样来

南极一块修炼千年的大冰块

7月月更

Okaleido生态核心权益OKA,尽在聚变Mining模式

股市老人

微软Azure和易观分析联合发布《企业级云原生平台驱动数字化转型》报告

易观分析

数字化转型

大数据开发课程怎么学?

小谷哥

我写的dubbo扩展jar包如何无侵入的给别人使用

石臻臻的杂货铺

7月月更

看了这么多Python教程,最香的还得是……

博文视点Broadview

第五届数字中国建设峰会举行,每日互动发布每日治数平台DIOS创新成果

个推

大数据 数据中台 数据智能 每日治数平台

Java & Go 专场 | 阿里云中间件开发者线下 Meetup 开启报名

阿里巴巴云原生

Java Go 阿里云 云原生 中间件

Kyligence 入选 Gartner 2022 数据管理技术成熟度曲线报告

Kyligence

sql查询 Gartner

Hugging Face 发布 FinePDFs:基于 PDF 文档构建的 3 万亿 Token 数据集_AI&大模型_InfoQ精选文章