写点什么

IBM 推出紧凑型视觉语言模型 Granite-Docling-258M,助力精准文档转换

作者:Robert Krzaczyński

  • 2025-10-14
    北京
  • 本文字数:1136 字

    阅读完需:约 4 分钟

大小:555.44K时长:03:09
IBM 推出紧凑型视觉语言模型 Granite-Docling-258M,助力精准文档转换

IBM Research 最近推出 Granite-Docling-258M,一款新的开源视觉语言模型(VLM),旨在高保真地将文档转换为文本,同时保留复杂的布局、表格、公式和列表等元素。


与依赖大型通用模型的典型光学字符识别(OCR)系统不同,Granite-Docling 专为文档解析而设计。尽管只有 2.58 亿个参数,但它的准确度与比它大数倍的模型相当,这为用户带来了显著的成本和效率优势。该模型不仅能够提取纯文本,还保留了精确的文档结构,包括数学符号、表格布局和代码块等元素,使其非常适合用于检索增强生成(RAG)流程和数据集准备。


Granite-Docling 在早期的 SmolDocling-256M 预览版基础上进行了改进,采用了基于 Granite 3 的先进架构,取代了原有的 SmolLM-2 主干,并将视觉编码器从 SigLIP 升级为性能更强大的 SigLIP2。新版本解决了之前存在的稳定性问题,如重复标记或不完整的解析,这主要得益于改进的数据集过滤和注释清理。


早期社区的反馈突显了该模型在设备端使用的潜力。在 Reddit 上,一位用户指出

3 亿参数?真是令人惊叹!这几乎意味着即使是低端手机在未来也能具备强大的本地 LLM 推理能力了。


对此,IBM 团队的一名成员回应道

谢谢。我们正努力在小型模型上做到最好,因为有些任务并不需要依赖庞大的模型来完成。


IBM Research 指出,Granite-Docling 在标准文档理解数据集上的基准测试表现卓越,在准确性、结构保真度和布局保留方面都有持续改进。Hugging Face 模型卡包含了完整的性能数据,Granite-Docling 在表格结构识别和公式解析等指标上与更大的专有系统相当甚至更好,同时保持了亚线性内存使用效率。


Granite-Docling 出色性能的关键在于 DocTags,这是一种结构化的标记格式,用于描述每一页的元素——包括表格、图表、代码、表单和标题——以及这些元素之间的空间和逻辑关系。这种明确的标记使模型能够将内容与结构分离,产生紧凑、机器可读且易于转换为 Markdown、JSON 或 HTML 等格式的输出。


该模型还引入了对阿拉伯语、中文和日语的实验性多语言支持,打破了其前身仅支持英语的局限。尽管这些多语言功能目前还处于初级阶段,但 IBM 已明确表示,未来版本将把实现全球语言覆盖作为核心目标之一。


Granite-Docling 为 Docling 库提供了补充,Docling 提供定制化的文档转换流程和 AI 智能体集成。两者结合使用,可以在企业文档工作流程中实现高准确性和灵活的编排。


IBM 表示,后续工作将包括更大的 Granite-Docling 模型(最多可达 9 亿参数)、通过 Docling-eval 扩展评估数据集,以及在 IBM watsonx.ai 中更深入地整合 DocTags。


Granite-Docling-258M 现已在 Hugging Face 上提供,采用了 Apache 2.0 许可协议。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


查看英文原文https://www.infoq.com/news/2025/10/granite-docling-ibm/


2025-10-14 13:003757

评论

发布
暂无评论

微店商品详情API指南

Datafox(数据狐)

微店数据接口 微店API 微店数据采集 微店商品详情API 微店数据分析

大庆市等保测评:特色领域下的安全守护行动

等保测评

网络安全 信息安全 数据安全 黑龙江等保测评 哈尔滨等保测评

超节点 OS 重磅首发!操作系统大会 2025 启幕 AI 时代基础软件新征程

科技经济

从0到1搭建出海舆情监控服务体系:资源有限型企业的启动指南

沃观Wovision

舆情监控 海外舆情监控 出海舆情 舆情监测服务

AI 口语 APP 的功能开发

北京木奇移动技术有限公司

AI教育 软件外包公司 AI英语

视频+教程 | 三位一体:MOI 数据源 + MO 向量存储 + Dify 应用层,构建企业级 RAG

MatrixOrigin

数据 向量 rag

第三方商品采集小程序系统:高效赋能电商运营

微擎应用市场

Aloudata Agent 重磅功能发布:“用户编排思路、AI 精准执行、可沉淀复用”的模块化分析报告

Aloudata

AIAgent ChatBI 智能问数 智能归因 智能报告

选择海外网红营销服务公司的5个关键维度

Wolink

跨境电商 海外社媒营销 海外营销推广 品牌出海 海外红人营销

跨境出海第一站如何选?北美、欧洲、东南亚市场潜力与风险白皮书

Wolink

跨境电商 出海 出海企业 海外营销推广 跨境电商运营

跨境出海战略全景图:2026年主流模式选择与落地路径深度解析

Wolink

跨境电商 出海 海外社媒营销 海外营销推广 海外红人营销

WebGL 的数字孪生项目开发

北京木奇移动技术有限公司

数字孪生 软件外包公司 webgl开发

知己知彼:通过出海舆情监控服务绘制海外竞争对手动态图谱

沃观Wovision

舆情监测 舆情监测系统 海外舆情监测

网络安全与数字化转型的价值投资

光联世纪

网络安全

能有效引导会议讨论

执于业务

什么是海外数据筛选?海外数据筛选怎么做?

沃观Wovision

数据 数据提取与筛选 海外数据与筛选

牡丹江等保测评:问题剖析与安全进阶之路

等保测评

网络安全 信息安全 数据安全 黑龙江等保测评 哈尔滨等保测评

海外网红推广实战指南:从策略到执行的全流程拆解

Wolink

跨境电商 海外社媒营销 海外营销推广 海外红人营销

从0到1:海外平台推广入门指南

Wolink

跨境电商 品牌营销 海外社媒营销 海外营销推广 海外红人营销

区块链Web3 项目的技术栈

北京木奇移动技术有限公司

区块链开发 软件外包公司 web3开发

思维链的陷阱:智源FlagEval评测揭示推理模型真实能力与安全隐患

智源研究院

人工智能

中国消费电子,一树红花照碧海

脑极体

AI

动漫头像制作微信小程序系统:引流变现一体化工具详解

微擎应用市场

微店商品列表API接口文档

Datafox(数据狐)

微店数据接口 微店API 微店商品列表API 微店数据采集

等保测评软件测试:关键国家标准全梳理

等保测评

网络安全 信息安全 数据安全 黑龙江等保测评 哈尔滨等保测评

快递鸟API对接文档之 即时查询(地图版)

快递鸟

深度解析|“数据基础设施”系列国家标准技术文件解读

隐语SecretFlow

让大模型一键“读懂”全球文档,合合信息携手火山引擎打造AI智能体新范式

合合技术团队

人工智能 大数据 算法

IBM 推出紧凑型视觉语言模型 Granite-Docling-258M,助力精准文档转换_计算机视觉_InfoQ精选文章