写点什么

IBM 推出紧凑型视觉语言模型 Granite-Docling-258M,助力精准文档转换

作者:Robert Krzaczyński

  • 2025-10-14
    北京
  • 本文字数:1136 字

    阅读完需:约 4 分钟

大小:555.44K时长:03:09
IBM 推出紧凑型视觉语言模型 Granite-Docling-258M,助力精准文档转换

IBM Research 最近推出 Granite-Docling-258M,一款新的开源视觉语言模型(VLM),旨在高保真地将文档转换为文本,同时保留复杂的布局、表格、公式和列表等元素。


与依赖大型通用模型的典型光学字符识别(OCR)系统不同,Granite-Docling 专为文档解析而设计。尽管只有 2.58 亿个参数,但它的准确度与比它大数倍的模型相当,这为用户带来了显著的成本和效率优势。该模型不仅能够提取纯文本,还保留了精确的文档结构,包括数学符号、表格布局和代码块等元素,使其非常适合用于检索增强生成(RAG)流程和数据集准备。


Granite-Docling 在早期的 SmolDocling-256M 预览版基础上进行了改进,采用了基于 Granite 3 的先进架构,取代了原有的 SmolLM-2 主干,并将视觉编码器从 SigLIP 升级为性能更强大的 SigLIP2。新版本解决了之前存在的稳定性问题,如重复标记或不完整的解析,这主要得益于改进的数据集过滤和注释清理。


早期社区的反馈突显了该模型在设备端使用的潜力。在 Reddit 上,一位用户指出

3 亿参数?真是令人惊叹!这几乎意味着即使是低端手机在未来也能具备强大的本地 LLM 推理能力了。


对此,IBM 团队的一名成员回应道

谢谢。我们正努力在小型模型上做到最好,因为有些任务并不需要依赖庞大的模型来完成。


IBM Research 指出,Granite-Docling 在标准文档理解数据集上的基准测试表现卓越,在准确性、结构保真度和布局保留方面都有持续改进。Hugging Face 模型卡包含了完整的性能数据,Granite-Docling 在表格结构识别和公式解析等指标上与更大的专有系统相当甚至更好,同时保持了亚线性内存使用效率。


Granite-Docling 出色性能的关键在于 DocTags,这是一种结构化的标记格式,用于描述每一页的元素——包括表格、图表、代码、表单和标题——以及这些元素之间的空间和逻辑关系。这种明确的标记使模型能够将内容与结构分离,产生紧凑、机器可读且易于转换为 Markdown、JSON 或 HTML 等格式的输出。


该模型还引入了对阿拉伯语、中文和日语的实验性多语言支持,打破了其前身仅支持英语的局限。尽管这些多语言功能目前还处于初级阶段,但 IBM 已明确表示,未来版本将把实现全球语言覆盖作为核心目标之一。


Granite-Docling 为 Docling 库提供了补充,Docling 提供定制化的文档转换流程和 AI 智能体集成。两者结合使用,可以在企业文档工作流程中实现高准确性和灵活的编排。


IBM 表示,后续工作将包括更大的 Granite-Docling 模型(最多可达 9 亿参数)、通过 Docling-eval 扩展评估数据集,以及在 IBM watsonx.ai 中更深入地整合 DocTags。


Granite-Docling-258M 现已在 Hugging Face 上提供,采用了 Apache 2.0 许可协议。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


查看英文原文https://www.infoq.com/news/2025/10/granite-docling-ibm/


2025-10-14 13:003657

评论

发布
暂无评论

给新春一台S,给用户三个S:华为智慧屏的新旅程

脑极体

品牌升级后,TBase更名为TDSQL和TDSQL-A,CynosDB更名为TDSQL-C

数据君

惊呆了!某东Java大咖的MySQL笔记手册流传出来了,胜过看10本书

Java架构之路

Java 程序员 架构 面试 编程语言

产品思维和意识

让我思考一会儿

第二周-总结-胡赵凯

hisun胡

产品经理 产品经理训练营

阿里巴巴十亿级并发系统设计手册已开源(2021最新版)

比伯

Java 编程 架构 面试 计算机

深圳程序员自谋生路的2020

鸠摩智首席音效师

开源 程序员 在线教育 创业者 深圳

阿里P8亲测能实战落地的SpringCloud开发笔记已开源

996小迁

Java 程序员 架构 面试 SpringCloud

Flink SQL 在字节跳动的优化与实践

Apache Flink

flink

Postgreshub中文资源网介绍

PostgreSQLChina

数据库 postgresql 开源 软件 开源社区

第二周-作业-胡赵凯

hisun胡

产品经理 产品经理训练营

在nodejs中创建child process

程序那些事

多线程 事件驱动 nodejs 并发 程序那些事

腾讯云数据库品牌升级,大咖解读数据库三大变化

数据君

从根上理解高性能、高并发(六):通俗易懂,高性能服务器到底是如何实现的

JackJiang

网络编程 高并发 高性能 即时通讯

产品经理训练营第 0 期 第二次作业

孙行者

第0期 产品经理训练营

boltdb源码阅读

行如风

数据库 源码剖析 Go 语言

七大步骤、备战60天,4面拿下字节跳动offer:时间规划+知识点+画脑图+做笔记+看书+看视频+刷题刷题

Java 程序员 面试

Vue.js笔试题解决业务中常见问题

我是哪吒

程序员 面试 Vue 大前端

图解计算机中的数据表示形式

冰河

程序员 计算机 二进制数据

挑战前端知识点HTTP/ECMAScript

我是哪吒

大前端 HTTP ES6

Flink 中极其重要的 Time 与 Window 详细解析(深度好文,建议收藏)

五分钟学大数据

大数据 flink

用APICloud开发iOS App Clip(苹果小程序)详细教程

YonBuilder低代码开发平台

小程序云开发 大前端 移动开发 APP开发

十年磨一剑,腾讯云数据库品牌重磅升级, “企业级分布式数据库TDSQL”来了!

数据君

LeetCode题解:389. 找不同,ASCII码求和,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

《程序员修炼之道》- 务实的哲学(1)

石云升

程序员 28天写作

连肝7个晚上,总结了计算机网络的知识点!(共66条)

我是哪吒

程序员 面试 浏览器 计算机网络 HTTP

搞定万亿级MySQL海量存储的索引与分表设计实战

Java架构师迁哥

2020出行之变(三):智能交通的星罗棋布

脑极体

极客时间产品训练营第二周作业

云随心

产品 第二周作业 产品训练营

极客时间产品训练营第二周总结

云随心

产品 总结 产品训练营

懂点EXCEL就行!教你利用Python做数据筛选(上)

智分析

Python Excel 数据清洗

IBM 推出紧凑型视觉语言模型 Granite-Docling-258M,助力精准文档转换_计算机视觉_InfoQ精选文章