50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

IBM 推出紧凑型视觉语言模型 Granite-Docling-258M,助力精准文档转换

作者:Robert Krzaczyński

  • 2025-10-14
    北京
  • 本文字数:1136 字

    阅读完需:约 4 分钟

大小:555.44K时长:03:09
IBM 推出紧凑型视觉语言模型 Granite-Docling-258M,助力精准文档转换

IBM Research 最近推出 Granite-Docling-258M,一款新的开源视觉语言模型(VLM),旨在高保真地将文档转换为文本,同时保留复杂的布局、表格、公式和列表等元素。


与依赖大型通用模型的典型光学字符识别(OCR)系统不同,Granite-Docling 专为文档解析而设计。尽管只有 2.58 亿个参数,但它的准确度与比它大数倍的模型相当,这为用户带来了显著的成本和效率优势。该模型不仅能够提取纯文本,还保留了精确的文档结构,包括数学符号、表格布局和代码块等元素,使其非常适合用于检索增强生成(RAG)流程和数据集准备。


Granite-Docling 在早期的 SmolDocling-256M 预览版基础上进行了改进,采用了基于 Granite 3 的先进架构,取代了原有的 SmolLM-2 主干,并将视觉编码器从 SigLIP 升级为性能更强大的 SigLIP2。新版本解决了之前存在的稳定性问题,如重复标记或不完整的解析,这主要得益于改进的数据集过滤和注释清理。


早期社区的反馈突显了该模型在设备端使用的潜力。在 Reddit 上,一位用户指出

3 亿参数?真是令人惊叹!这几乎意味着即使是低端手机在未来也能具备强大的本地 LLM 推理能力了。


对此,IBM 团队的一名成员回应道

谢谢。我们正努力在小型模型上做到最好,因为有些任务并不需要依赖庞大的模型来完成。


IBM Research 指出,Granite-Docling 在标准文档理解数据集上的基准测试表现卓越,在准确性、结构保真度和布局保留方面都有持续改进。Hugging Face 模型卡包含了完整的性能数据,Granite-Docling 在表格结构识别和公式解析等指标上与更大的专有系统相当甚至更好,同时保持了亚线性内存使用效率。


Granite-Docling 出色性能的关键在于 DocTags,这是一种结构化的标记格式,用于描述每一页的元素——包括表格、图表、代码、表单和标题——以及这些元素之间的空间和逻辑关系。这种明确的标记使模型能够将内容与结构分离,产生紧凑、机器可读且易于转换为 Markdown、JSON 或 HTML 等格式的输出。


该模型还引入了对阿拉伯语、中文和日语的实验性多语言支持,打破了其前身仅支持英语的局限。尽管这些多语言功能目前还处于初级阶段,但 IBM 已明确表示,未来版本将把实现全球语言覆盖作为核心目标之一。


Granite-Docling 为 Docling 库提供了补充,Docling 提供定制化的文档转换流程和 AI 智能体集成。两者结合使用,可以在企业文档工作流程中实现高准确性和灵活的编排。


IBM 表示,后续工作将包括更大的 Granite-Docling 模型(最多可达 9 亿参数)、通过 Docling-eval 扩展评估数据集,以及在 IBM watsonx.ai 中更深入地整合 DocTags。


Granite-Docling-258M 现已在 Hugging Face 上提供,采用了 Apache 2.0 许可协议。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


查看英文原文https://www.infoq.com/news/2025/10/granite-docling-ibm/


2025-10-14 13:001

评论

发布
暂无评论

鸿蒙仓颉语言开发实战教程:商城搜索页

幽蓝计划

VMware VeloCloud SD-WAN 6.2 新增功能简介

sysin

velocloud

Rocky Linux 9.6 正式版发布 - RHEL 100% 1:1 兼容免费发行版

sysin

Rocky

React-native实战系列

溪抱鱼

前端 React

高防服务器价格高原因分析

网络安全服务

CDN DDoS 带宽 高防服务器 DDoS 攻击

其实,从程序员到架构师,只需要掌握这些知识点就够了!

程序员高级码农

程序员 架构师

TortoiseSVN使用-合并深度介绍

刘大猫

人工智能 svn 算法 数据分析 tortoiseSVN

驶向智能未来:车载 MCP 服务与边缘计算驱动的驾驶数据交互新体验

EMQ映云科技

人工智能 边缘计算 大模型 MCP

HikariCP 可观测性最佳实践

观测云

数据库

95年,28岁、聊聊外包四年的真实感受

Geek_Yin

Java 程序员 java面试 Java面试题

低代码:重构企业数字化开发底座

引迈信息

AI Agent 工程师绕不开的必修课:API 网关 vs API 管理

阿里巴巴云原生

阿里云 AI 云原生 API网关

AI助力Java开发:减少70%重复编码,实战效能提升解析

飞算JavaAI开发助手

华为初面 + 综合面试,附上面试题,share 给大家~

Geek_Yin

Java 程序员 java面试 Java面试题

面了个腾讯拿 38K 出来的,让我见识到了基础的天花板

Geek_Yin

Java 程序员 Java 面试题 java 架构

OpenAI SDK 上新 RealtimeAgent;OpenAudio S1 语音生成模型:语调情感标记,精确控制风格

声网

通义灵码你问我答:看看 5 月上线了哪些新功能?

阿里巴巴云原生

AI浪潮下的认知重构:从一个数据老兵的转型思考

松子(李博源)

职场 职业转型 #大模型 #产品经理

数字人如何通过垂类营销大模型获得“行业超脑”的能力

东信营销科技

智能体 #AI AI营销 #数字人 #东信营销科技

全网首发!马士兵内部共享—1658页《Java面试突击核心讲》

Geek_Yin

Java 程序员 Java面试题

出版社教学资源网的主要功能

北京木奇移动技术有限公司

AI教育 软件外包公司 出版社 教学资源网

相较于其他局域网聊天工具,BeeWorks优势在哪?

BeeWorks

即时通讯 IM 私有化部署

ETLCloud:重新定义AI驱动的数据集成未来

谷云科技RestCloud

人工智能 AI 数字化转型 ETL 数据集成

油气行业AI转型的三昧真火

脑极体

AI

AI Agent需要什么样的数据库?

元闰子

2025Go面试八股(含100道答案)

王中阳Go

Go 最新面试题

使用 Amazon Q Developer CLI 调用 MCP Server 实现 Amazon Support 案例自动创建

亚马逊云科技 (Amazon Web Services)

AI IDE 正式上线!通义灵码开箱即用

阿里巴巴云原生

阿里云 云原生 通义灵码

AI IDE 正式上线!通义灵码开箱即用

阿里云云效

阿里云 云原生 通义灵码

Go语言是现在进大厂的捷径?快来看看Golang学习语言图

Geek_Yin

Java 程序员 java面试 Java面试题

React-native之Flexbox

溪抱鱼

前端开发 React

IBM 推出紧凑型视觉语言模型 Granite-Docling-258M,助力精准文档转换_计算机视觉_InfoQ精选文章