大厂Data+Agent 秘籍:腾讯/阿里/字节解析如何提升数据分析智能。 了解详情
写点什么

Nvidia Ingest 让从文档中提取结构化信息更简单

作者:Sergio De Simone

  • 2025-02-17
    北京
  • 本文字数:1087 字

    阅读完需:约 4 分钟

Nvidia Ingest 让从文档中提取结构化信息更简单

Nvidia Ingest 是一种新的微服务,旨在处理文档内容并将元数据提取到明确定义的 JSON 模式中。Ingest 能够处理 PDF、Word 和 PowerPoint 文档,并使用光学字符识别技术从表格、图表、图像和文本中提取结构化信息。


要使用 Nvidia Ingest,需要向其提供需要摄取的有效载荷的 JSON 作业描述。然后,你就可以以 JSON 字典的形式检索结果,其中包含提取到的所有对象的元数据、处理注解和时间 / 跟踪信息。


Nvidia 没有提供有关 Ingest 性能的数据,但表示它具有可扩展性,可以使用多种处理方法来提高准确性或增加吞吐量。对于 PDF 文档,Ingest 可以使用 pdfium、Unstructured.io 或 Adobe  的内容提取服务。


例如,借助nv-ingest-cli(用于与 Nvidia Ingest 交互的命令行工具),你可以使用--task参数指定如何处理文档,其中包括一个extract_method选项:


nv-ingest-cli \... \  --task='extract:{"document_type": "pdf", "extract_method": "pdfium", "extract_text": true, "extract_images": true, "extract_tables": true, "extract_tables_method": "yolox"}' \...
复制代码


Nvidia 明确指出,不能使用 Ingest 创建流水线,对有效载荷中的文档执行一系列操作。不过,你可以运行各种预处理或后处理转换,包括文本分割和分块、过滤、嵌入生成和图像卸载。也就是说,在执行同一个 nv-ingest-cli 时,可以使用多个--task参数。例如,可以使用以下参数添加一个 dedup(去重)步骤:


nv-ingest-cli \... \  --task='extract:{...} \  --task='dedup:{"content_type": "image", "filter": true}' \..
复制代码


该工具可用于使用--doc参数指定的单个文档,或通过提供描述批处理有效载荷的 JSON 格式字典,同时用于一组文档。


提取的所有数据都存储在一个输出目录中,每种文档类型(如图像、文本、结构化文档等)一个子目录。每个摄取的文档都会生成一个 JSON 元数据文件,其中包含提取的内容、源元数据(包括源名称、位置、类型等)和内容元数据。内容元数据包括一般内容元数据和特定类型内容元数据。例如,对于图像,可获取图像类型、任何说明文字、位置、大小等;对于文本,可获取摘要、关键词列表、语言等;对于表格,可获取格式、位置、文本内容、任何说明文字或标题等。


Nvidia Ingest 需要大量来自 Nvidia 和开源项目的支持服务,包括 Redis、yolox、用于开放式遥测的 otel-collector、prometheus、grafana 等。为方便部署,它们被打包成一个 Docker Compose 应用程序。它还需要 CUDA 和 Nvidia Container Toolkit 的支持,以及至少两个 H100 或 A100 GPU 和至少 80GM 内存。


原文链接:


https://www.infoq.com/news/2025/01/nvidia-ingest-document-extract/

2025-02-17 17:007032

评论

发布
暂无评论

为什么企业要用私有化部署的Im即时通讯软件?

BeeWorks

一图读懂金仓企业级分布式数据库KES Sharding

金仓技术

KingbaseES 金仓数据库

有没有适合企业用的局域网即时通讯聊天工具?

BeeWorks

如何通过KStudio连接金仓数据库KingbaseES

金仓技术

KingbaseES 金仓数据库

金仓数据库KingbaseES安装指南(Linux环境)

金仓技术

数据库· KingbaseES 金仓数据库

CAD提示无法更新实体填充

极客天地

基于 Trae 的单细胞 RNA 测序分析与可视化

火山引擎开发者社区

火山引擎 RNA

从关键词到流量闭环,AI 自动 SEO 如何一步到位?

极客天地

VMware vCenter Server 8.0U3e 新增功能简介

sysin

vcenter

内网局域网部署的聊天软件BeeWorks优势分析

BeeWorks

BeeWorks Meet:私有化部署的视频会议利器,安全高效助力企业协作

BeeWorks

一图读懂金仓集中运维管控一体化平台KOPS

金仓技术

KingbaseES 金仓数据库

WPS Office for Mac 7.3.1 - 写作、表格处理、PPT 制作和 PDF 编辑

sysin

WPS Office

CAD测量三维实体表面积方法

极客天地

MCP 正当时:FunctionAI MCP 开发平台来了!

阿里巴巴云原生

阿里云 云原生 MCP

聊聊软件生命周期中的度量指标(附《软件研发效能度量规范》下载)

思码逸研发效能

研发管理 研发效能 效能管理 思码逸 研发指标

如何使用Ksql 连接金仓数据库KingbaseES

金仓技术

KingbaseES 金仓数据库

用户行为分析正在被保险行业广泛采纳-ClkLog埋点分析系统

ClkLog

开源 数据分析 画像 埋点分析

OpenDataLab&和鲸举办大模型赋能科研分享会

ModelWhale

大模型 科研 经济管理 minerU

手把手教你安装部署金仓数据库 KingbaseES

金仓技术

数据库· KingbaseES 金仓数据库

iVX:引领图形化编程与 AI 融合的开发革命

代码制造者

无代码开发

Zookeeper 可观测性最佳实践

观测云

一图看懂金仓快速开发与运维平台KES Plus

金仓技术

KingbaseES 金仓数据库

使用Chat2DB连接金仓数据库KingbaseES

金仓技术

KingbaseES 金仓数据库

Prometheus 性能调优:大模型和智能驾驶可观测的高基数问题

火山引擎开发者社区

AI 火山引擎

如何选择分析型数据库?企业级选型指南与 2025 趋势解读

镜舟科技

云原生 OLAP BI 分析型数据库 StarRocks

CAD背景遮罩使用方法

极客天地

从繁忙到真正高效:为何资源效率正在扼杀你的产出

ShineScrum

敏捷

【工业数据技术研讨会】4.26 广州 | 国产开源数据库技术交流,错过再等一年!

Apache IoTDB

使用PawSQL连接金仓数据库

金仓技术

KingbaseES 金仓数据库

ESXi 8.0U3e 重大更新发布,修复 150 多个已知问题

sysin

esxi

Nvidia Ingest 让从文档中提取结构化信息更简单_AI&大模型_InfoQ精选文章