
IBM Research 最近推出 Granite-Docling-258M,一款新的开源视觉语言模型(VLM),旨在高保真地将文档转换为文本,同时保留复杂的布局、表格、公式和列表等元素。
与依赖大型通用模型的典型光学字符识别(OCR)系统不同,Granite-Docling 专为文档解析而设计。尽管只有 2.58 亿个参数,但它的准确度与比它大数倍的模型相当,这为用户带来了显著的成本和效率优势。该模型不仅能够提取纯文本,还保留了精确的文档结构,包括数学符号、表格布局和代码块等元素,使其非常适合用于检索增强生成(RAG)流程和数据集准备。
Granite-Docling 在早期的 SmolDocling-256M 预览版基础上进行了改进,采用了基于 Granite 3 的先进架构,取代了原有的 SmolLM-2 主干,并将视觉编码器从 SigLIP 升级为性能更强大的 SigLIP2。新版本解决了之前存在的稳定性问题,如重复标记或不完整的解析,这主要得益于改进的数据集过滤和注释清理。
早期社区的反馈突显了该模型在设备端使用的潜力。在 Reddit 上,一位用户指出:
3 亿参数?真是令人惊叹!这几乎意味着即使是低端手机在未来也能具备强大的本地 LLM 推理能力了。
对此,IBM 团队的一名成员回应道:
谢谢。我们正努力在小型模型上做到最好,因为有些任务并不需要依赖庞大的模型来完成。
IBM Research 指出,Granite-Docling 在标准文档理解数据集上的基准测试表现卓越,在准确性、结构保真度和布局保留方面都有持续改进。Hugging Face 模型卡包含了完整的性能数据,Granite-Docling 在表格结构识别和公式解析等指标上与更大的专有系统相当甚至更好,同时保持了亚线性内存使用效率。
Granite-Docling 出色性能的关键在于 DocTags,这是一种结构化的标记格式,用于描述每一页的元素——包括表格、图表、代码、表单和标题——以及这些元素之间的空间和逻辑关系。这种明确的标记使模型能够将内容与结构分离,产生紧凑、机器可读且易于转换为 Markdown、JSON 或 HTML 等格式的输出。
该模型还引入了对阿拉伯语、中文和日语的实验性多语言支持,打破了其前身仅支持英语的局限。尽管这些多语言功能目前还处于初级阶段,但 IBM 已明确表示,未来版本将把实现全球语言覆盖作为核心目标之一。
Granite-Docling 为 Docling 库提供了补充,Docling 提供定制化的文档转换流程和 AI 智能体集成。两者结合使用,可以在企业文档工作流程中实现高准确性和灵活的编排。
IBM 表示,后续工作将包括更大的 Granite-Docling 模型(最多可达 9 亿参数)、通过 Docling-eval 扩展评估数据集,以及在 IBM watsonx.ai 中更深入地整合 DocTags。
Granite-Docling-258M 现已在 Hugging Face 上提供,采用了 Apache 2.0 许可协议。
【声明:本文由 InfoQ 翻译,未经许可禁止转载。】
查看英文原文:https://www.infoq.com/news/2025/10/granite-docling-ibm/‘
评论