写点什么

DeepSeek-OCR 开源:基于视觉的上下文压缩重新定义长文本处理

作者:Robert Krzaczyński

  • 2025-10-28
    北京
  • 本文字数:1098 字

    阅读完需:约 4 分钟

大小:541.52K时长:03:04
DeepSeek-OCR 开源:基于视觉的上下文压缩重新定义长文本处理

DeepSeek AI 推出 DeepSeek-OCR,一个开源系统,使用光学 2D 映射来压缩长文本段落。这种方法旨在增强大语言模型处理文本密集型输入的能力。这种被称为 “上下文压缩新范式” 的方法表明,与传统标记化相比,视觉编码可以更高效地存储和检索语言。


DeepSeek-OCR 由两个核心组件构成:负责视觉压缩的 DeepEncoder,以及作为解码器的 DeepSeek3B-MoE-A570M。该系统实现了 97% 的 OCR 精度,压缩比低于 10×,可将十个文本标记压缩为一个视觉标记。即便在 20× 的压缩比下,它仍能保持约 60% 的精度,这表明即使大幅减少标记数量,也能保留有意义的内容。



来源:https://arxiv.org/pdf/2510.18234


DeepEncoder 架构在高效处理高分辨率输入的同时,将激活内存降至最低。它结合窗口注意力机制、全局注意力机制以及 16× 卷积压缩器,能够进行大规模图像处理而不出现 GPU 内存问题。DeepSeek-OCR 已经超越 GOT-OCR 2.0 和 MinerU 2.0 等先进模型,以每页少于 800 个视觉标记的高效配置实现了更高的精度。


解码器采用混合专家(MoE)架构,可以对不同的 OCR 子任务进行专门处理,同时保持速度和精度。这使得模型能够以媲美全尺寸 OCR 软件套装的精准度,读取图表、公式以及多语言文档,且在计算资源的消耗上大幅降低。


研究团队将 DeepSeek-OCR 定位为不仅仅是 OCR 系统——它更是下一代 LLM 内存机制的潜在基础。通过将长上下文存储为压缩的视觉标记,模型可以有效地 “记住” 过去的信息,而不会增加标记数量。


人工智能社区的早期反馈充满了好奇。一位 Reddit 用户写道

这看起来像是 Gemini 2.5 已经拥有的东西,除非他们在背后使用了额外的工具。我曾处理过一些文本密集型图像,标记数量甚至少于实际转录的文本,但它依然能够毫无问题地处理它们。


发布之后,开发人员就模型在本地运行的实操细节展开了讨论。在 Reddit 上,一位用户提出了自己的疑问

我希望我能够知道如何在我的台式电脑上运行这些视觉模型。它们不会转换成 GGUF 格式,而且我不确定还有其他什么方法可以运行它们,因为我现在肯定能用上这样的东西。有什么建议吗?


另一位用户给出了说明

可以借助 Python 的 transformer 库来运行,不过这会是全精度模式,所以需要一定的显存(VRAM)。一般来说,3B 模型应该能在大多数 GPU 上运行。


DeepSeek-OCR 的代码和模型权重已在 GitHub 上开放,DeepSeek 邀请研究人员们去重现它的结果,并在此基础上进一步拓展研究。该系统在通过视觉通道对大型文本文件进行压缩和解码方面的出色性能,或许会对未来 LLM 在效率与内存平衡问题上提供新的思路和方向。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


查看英文原文https://www.infoq.com/news/2025/10/deepseek-ocr/

2025-10-28 11:001

评论

发布
暂无评论

愿我们心中都有信念,眼里都有光芒

禅道项目管理

团队管理 项目管理 敏捷开发

2023年“开放原子校源行”项目正式启动,腾讯大力支持开源人才培养

科技热闻

三次迭代终放“大招”,Themis Pro版即将问世

小哈区块

【转载】亚信科技亮相中国高速公路信息化大会,与云南云通数联达成战略合作

亚信AntDB数据库

AntDB AntDB数据库 企业号 4 月 PK 榜

阿里云EMAS移动测试最佳实践|马来西亚第一大电子钱包通过EMAS测试提效6倍

移动研发平台EMAS

云计算 阿里云 移动研发平台 移动测试

三次迭代终放“大招”,Themis Pro版即将问世

西柚子

龙蜥社区 3 月度运营大事件回顾

OpenAnolis小助手

活动 生态 龙蜥社区 运营月报 重要事件

Selenium Grid作用是什么?Selenium Grid的使用过程?

测吧(北京)科技有限公司

测试

软件测试/测试开发丨必知必会的Docker 命令

测试人

Docker 软件测试 自动化测试 测试开发

北京国家会计学院聂兴凯:用友BIP事项会计助力企业迈入智能会计时代

用友BIP

智能会计 价值财务

MySQL多版本并发控制MVCC实现原理

Java MySQL 数据库 MVCC

AI自然语言处理的过去和未来

鲸品堂

自然语言处理 ChatGPT 企业号 4 月 PK 榜

小程序SDK的发展趋势与未来展望

FinFish

小程序 APP开发 小程序容器 超级app

HTTP与HTTPS的区别

测吧(北京)科技有限公司

测试

深入理解JVM运行机制与GC机制

Java JVM 虚拟机 GC

三思光电入选浙江省2023数字化生产制造示范项目名单!

电子信息发烧客

海尔牵头!又一国家重点研发计划启动!

Openlab_cosmoplat

人工智能 开源项目 开源社区

FastAPI 的路由介绍与使用

宇宙之一粟

Python FastApi 路由

博睿数据中海油多云资源监控与治理案例荣膺云数大会年度优秀实践案例

博睿数据

可观测性 智能运维 博睿数据 精选案例

软件测试/测试开发丨必知必会的Docker 命令

测试人

Docker 软件测试 自动化测试 测试开发

阿里秀MySQL高端玩法,300页MySQL调优文档GitHub开源即巅峰

Java MySQL 数据库

GitHub开源大厂缓存架构Redis优化的文档,900页全是干货

Java 数据库 redis 缓存

Higress 0.7.0 版本发布:GA 进入倒计时

阿里巴巴云原生

阿里云 云原生 Higress

使用 Lambda Web Adapter 在 Lambda 上 构建 web 应用

亚马逊云科技 (Amazon Web Services)

Amazon

关于编译的重要概念总结

timerring

编译器

各界伙伴畅谈展望,OpenCloudOS发布首个全自研版本

科技热闻

软件测试/测试开发丨应用打包还是测试团队老大难问题?

测试人

软件测试 自动化测试 测试开发

快速玩转 CNStack 2.0 流量防护

阿里巴巴云原生

阿里云 云原生 CNStack

新思科技:车联网产业的起点是安全

InfoQ_434670063458

车联网 新思科技 汽车安全

OceanBase入选啦!金融信创优秀解决方案(第二期)

OceanBase 数据库

数据库 oceanbase

DeepSeek-OCR 开源:基于视觉的上下文压缩重新定义长文本处理_AI&大模型_InfoQ精选文章