写点什么

Nvidia Ingest 让从文档中提取结构化信息更简单

作者:Sergio De Simone

  • 2025-02-17
    北京
  • 本文字数:1087 字

    阅读完需:约 4 分钟

Nvidia Ingest 让从文档中提取结构化信息更简单

Nvidia Ingest 是一种新的微服务,旨在处理文档内容并将元数据提取到明确定义的 JSON 模式中。Ingest 能够处理 PDF、Word 和 PowerPoint 文档,并使用光学字符识别技术从表格、图表、图像和文本中提取结构化信息。


要使用 Nvidia Ingest,需要向其提供需要摄取的有效载荷的 JSON 作业描述。然后,你就可以以 JSON 字典的形式检索结果,其中包含提取到的所有对象的元数据、处理注解和时间 / 跟踪信息。


Nvidia 没有提供有关 Ingest 性能的数据,但表示它具有可扩展性,可以使用多种处理方法来提高准确性或增加吞吐量。对于 PDF 文档,Ingest 可以使用 pdfium、Unstructured.io 或 Adobe  的内容提取服务。


例如,借助nv-ingest-cli(用于与 Nvidia Ingest 交互的命令行工具),你可以使用--task参数指定如何处理文档,其中包括一个extract_method选项:


nv-ingest-cli \... \  --task='extract:{"document_type": "pdf", "extract_method": "pdfium", "extract_text": true, "extract_images": true, "extract_tables": true, "extract_tables_method": "yolox"}' \...
复制代码


Nvidia 明确指出,不能使用 Ingest 创建流水线,对有效载荷中的文档执行一系列操作。不过,你可以运行各种预处理或后处理转换,包括文本分割和分块、过滤、嵌入生成和图像卸载。也就是说,在执行同一个 nv-ingest-cli 时,可以使用多个--task参数。例如,可以使用以下参数添加一个 dedup(去重)步骤:


nv-ingest-cli \... \  --task='extract:{...} \  --task='dedup:{"content_type": "image", "filter": true}' \..
复制代码


该工具可用于使用--doc参数指定的单个文档,或通过提供描述批处理有效载荷的 JSON 格式字典,同时用于一组文档。


提取的所有数据都存储在一个输出目录中,每种文档类型(如图像、文本、结构化文档等)一个子目录。每个摄取的文档都会生成一个 JSON 元数据文件,其中包含提取的内容、源元数据(包括源名称、位置、类型等)和内容元数据。内容元数据包括一般内容元数据和特定类型内容元数据。例如,对于图像,可获取图像类型、任何说明文字、位置、大小等;对于文本,可获取摘要、关键词列表、语言等;对于表格,可获取格式、位置、文本内容、任何说明文字或标题等。


Nvidia Ingest 需要大量来自 Nvidia 和开源项目的支持服务,包括 Redis、yolox、用于开放式遥测的 otel-collector、prometheus、grafana 等。为方便部署,它们被打包成一个 Docker Compose 应用程序。它还需要 CUDA 和 Nvidia Container Toolkit 的支持,以及至少两个 H100 或 A100 GPU 和至少 80GM 内存。


原文链接:


https://www.infoq.com/news/2025/01/nvidia-ingest-document-extract/

2025-02-17 17:006978

评论

发布
暂无评论

Prometheus 2.18.0 新特性

耳东@Erdong

Prometheus

浅说Docker基础知识与核心原理

岿然独存5

Docker 软件 Go 语言

除了直接看余额,谁更有钱还能怎么比(二)

石君

去中心 零知识证明

云上基础产品之内容分发网络

韩超

CDN 公有云 内容分发网络

是什么奠定了架构师的职场地位?

刁架构

极客大学架构师训练营

云上基础产品之对象存储

韩超

对象存储 公有云 S3

ARTS|Week 01 (2020第22周)

MiracleWong

算法 写作 ARTS 打卡计划

带你学够浪:Go语言基础系列-环境配置和 Hello world

程序员柠檬

后台开发 Go 语言

你想活出怎样的人生

Janenesome

读书笔记 思考

Go: 使用GODEBUG改善Goroutine的使用

陈思敏捷

debug 协程 Go 语言

用大数据分析了一线城市1000多份岗位招聘需求,告诉你如何科学找工作

程序员柠檬

Python 数据分析

N皇后问题

孙苏勇

算法 DFS 深度优先搜索

直面一个复杂世界

史方远

读书笔记 个人成长 随笔杂谈

ARTS Week2

丽子

【摘】Git-从零单排 02期

卡尔

git 原理 开发工具 工具链

Linux命令-df

一周思进

戒掉手机吧

鼎玉谷

人生 手机 时间 浪费 控制

程序员的晚餐 | 5 月 30 日 入梅天,来一盆小龙虾

清远

美食

Python 进阶与核心技术 dict & set

Bonaparte

Python 极客时间

云上基础产品之虚拟私有云

韩超

公有云 VPC 虚拟私有云

关于 Windows 10 2020 年 5 月更新

FeiLong

程序猿邂逅相亲妹,默默无语两行泪

码农神说

程序员 相亲

JMM的前世今生

fkc_zyk

重排序 volatile happens-before JMM cpu

谈谈控制感(12):选择什么样的工作

史方远

读书笔记 个人成长 随笔杂谈

RocketMQ - 如何实现事务消息

Java收录阁

RocketMQ

遇事不决,请先 「搜索」

小匚

个人成长 职场 随笔杂谈

云上基础产品之负载均衡

韩超

负载均衡 公有云

一款霸榜 GitHub 的开源 Linux 资源监视器!

JackTian

GitHub Linux 开源 bashtop 资源监视器

工作那么久,你还具备学习能力么?

punkboy

学习 程序员

架构之路

强哥

极客大学架构师训练营

带你学够浪:Go语言基础系列 - 8分钟学基础语法

程序员柠檬

程序员 后台开发 Go 语言

Nvidia Ingest 让从文档中提取结构化信息更简单_AI&大模型_InfoQ精选文章