写点什么

Nvidia Ingest 让从文档中提取结构化信息更简单

作者:Sergio De Simone

  • 2025-02-17
    北京
  • 本文字数:1087 字

    阅读完需:约 4 分钟

Nvidia Ingest 让从文档中提取结构化信息更简单

Nvidia Ingest 是一种新的微服务,旨在处理文档内容并将元数据提取到明确定义的 JSON 模式中。Ingest 能够处理 PDF、Word 和 PowerPoint 文档,并使用光学字符识别技术从表格、图表、图像和文本中提取结构化信息。


要使用 Nvidia Ingest,需要向其提供需要摄取的有效载荷的 JSON 作业描述。然后,你就可以以 JSON 字典的形式检索结果,其中包含提取到的所有对象的元数据、处理注解和时间 / 跟踪信息。


Nvidia 没有提供有关 Ingest 性能的数据,但表示它具有可扩展性,可以使用多种处理方法来提高准确性或增加吞吐量。对于 PDF 文档,Ingest 可以使用 pdfium、Unstructured.io 或 Adobe  的内容提取服务。


例如,借助nv-ingest-cli(用于与 Nvidia Ingest 交互的命令行工具),你可以使用--task参数指定如何处理文档,其中包括一个extract_method选项:


nv-ingest-cli \... \  --task='extract:{"document_type": "pdf", "extract_method": "pdfium", "extract_text": true, "extract_images": true, "extract_tables": true, "extract_tables_method": "yolox"}' \...
复制代码


Nvidia 明确指出,不能使用 Ingest 创建流水线,对有效载荷中的文档执行一系列操作。不过,你可以运行各种预处理或后处理转换,包括文本分割和分块、过滤、嵌入生成和图像卸载。也就是说,在执行同一个 nv-ingest-cli 时,可以使用多个--task参数。例如,可以使用以下参数添加一个 dedup(去重)步骤:


nv-ingest-cli \... \  --task='extract:{...} \  --task='dedup:{"content_type": "image", "filter": true}' \..
复制代码


该工具可用于使用--doc参数指定的单个文档,或通过提供描述批处理有效载荷的 JSON 格式字典,同时用于一组文档。


提取的所有数据都存储在一个输出目录中,每种文档类型(如图像、文本、结构化文档等)一个子目录。每个摄取的文档都会生成一个 JSON 元数据文件,其中包含提取的内容、源元数据(包括源名称、位置、类型等)和内容元数据。内容元数据包括一般内容元数据和特定类型内容元数据。例如,对于图像,可获取图像类型、任何说明文字、位置、大小等;对于文本,可获取摘要、关键词列表、语言等;对于表格,可获取格式、位置、文本内容、任何说明文字或标题等。


Nvidia Ingest 需要大量来自 Nvidia 和开源项目的支持服务,包括 Redis、yolox、用于开放式遥测的 otel-collector、prometheus、grafana 等。为方便部署,它们被打包成一个 Docker Compose 应用程序。它还需要 CUDA 和 Nvidia Container Toolkit 的支持,以及至少两个 H100 或 A100 GPU 和至少 80GM 内存。


原文链接:


https://www.infoq.com/news/2025/01/nvidia-ingest-document-extract/

2025-02-17 17:007010

评论

发布
暂无评论

专访九号:成为规则制定者,打造可靠品牌

财见

《技术采用指数》报告在2025年世界经济论坛上发布

财见

《Operating System Concepts》阅读笔记:p1-p1

codists

System

WebGL开发3D产品展示的技术难点

北京木奇移动技术有限公司

数字孪生 软件外包公司 webgl开发

MacOS和Windows有什么区别?教你在同一电脑运行双系统

阿拉灯神丁

Windows系统 macOS系统 Mac双系统 CrossOver Mac下载 电脑软件

WebGL开发3D产品展示的流程

北京木奇移动技术有限公司

软件外包公司 数字孪生开发 webgl开发

WebGL技术开发3D产品展示的上线流程

北京木奇移动技术有限公司

数字孪生 软件外包公司 webgl开发

数据分析和AI丨应对AI实施挑战,工程领域AI应用的五大方法

Altair RapidMiner

机器学习 AI 数据分析 知识图谱 智能制造

通过Ngrok实现内网穿透助力远程开发

Damon小智

ngrok 内网穿透

西班牙旅游业积极拥抱鲸鸿动能,抓住入海旅游业破局关键

财见

macOS Sequoia 15.3 (24D60) Boot ISO 原版可引导镜像下载

sysin

macOS Sequoia

使用CLOC统计项目成员Git提交的代码量

Damon小智

perl git cloc 代码量统计

区块链智能合约的上线流程

北京木奇移动技术有限公司

区块链技术 智能合约开发 软件外包公司

如何避免项目延误

易成研发中心

项目管理 项目管理系统 项目软件管理

WebGL开发地图可视化系统

北京木奇移动技术有限公司

软件外包公司 webgl开发 地图系统

AI英语考试 APP的开发

北京木奇移动技术有限公司

软件外包公司 AI英语学习 AI英语考试

WebGL 开发 3D 产品展示的框架

北京木奇移动技术有限公司

数字孪生 软件外包公司 webgl开发

WebGL开发地图可视化系统的技术框架

北京木奇移动技术有限公司

地理信息系统 软件外包公司 webgl开发

webgl开发GIS系统的技术难点

北京木奇移动技术有限公司

数字孪生 软件外包公司 webgl开发

webgl开发GIS系统的性能优化

北京木奇移动技术有限公司

数字孪生 软件外包公司 webgl开发

音乐NFT系统的上线流程

北京木奇移动技术有限公司

软件外包公司 音乐NFT 体育NFT

为什么大厂面试都深挖“八股文”?——技术筛选背后的逻辑

储诚益

面试 八股文 Java技术

AI英语考试APP开发的技术难点

北京木奇移动技术有限公司

软件外包公司 AI英语学习 AI英语考试

Nvidia Ingest 让从文档中提取结构化信息更简单_AI&大模型_InfoQ精选文章