2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

Nvidia Ingest 让从文档中提取结构化信息更简单

作者:Sergio De Simone

  • 2025-02-17
    北京
  • 本文字数:1087 字

    阅读完需:约 4 分钟

Nvidia Ingest 让从文档中提取结构化信息更简单

Nvidia Ingest 是一种新的微服务,旨在处理文档内容并将元数据提取到明确定义的 JSON 模式中。Ingest 能够处理 PDF、Word 和 PowerPoint 文档,并使用光学字符识别技术从表格、图表、图像和文本中提取结构化信息。


要使用 Nvidia Ingest,需要向其提供需要摄取的有效载荷的 JSON 作业描述。然后,你就可以以 JSON 字典的形式检索结果,其中包含提取到的所有对象的元数据、处理注解和时间 / 跟踪信息。


Nvidia 没有提供有关 Ingest 性能的数据,但表示它具有可扩展性,可以使用多种处理方法来提高准确性或增加吞吐量。对于 PDF 文档,Ingest 可以使用 pdfium、Unstructured.io 或 Adobe  的内容提取服务。


例如,借助nv-ingest-cli(用于与 Nvidia Ingest 交互的命令行工具),你可以使用--task参数指定如何处理文档,其中包括一个extract_method选项:


nv-ingest-cli \... \  --task='extract:{"document_type": "pdf", "extract_method": "pdfium", "extract_text": true, "extract_images": true, "extract_tables": true, "extract_tables_method": "yolox"}' \...
复制代码


Nvidia 明确指出,不能使用 Ingest 创建流水线,对有效载荷中的文档执行一系列操作。不过,你可以运行各种预处理或后处理转换,包括文本分割和分块、过滤、嵌入生成和图像卸载。也就是说,在执行同一个 nv-ingest-cli 时,可以使用多个--task参数。例如,可以使用以下参数添加一个 dedup(去重)步骤:


nv-ingest-cli \... \  --task='extract:{...} \  --task='dedup:{"content_type": "image", "filter": true}' \..
复制代码


该工具可用于使用--doc参数指定的单个文档,或通过提供描述批处理有效载荷的 JSON 格式字典,同时用于一组文档。


提取的所有数据都存储在一个输出目录中,每种文档类型(如图像、文本、结构化文档等)一个子目录。每个摄取的文档都会生成一个 JSON 元数据文件,其中包含提取的内容、源元数据(包括源名称、位置、类型等)和内容元数据。内容元数据包括一般内容元数据和特定类型内容元数据。例如,对于图像,可获取图像类型、任何说明文字、位置、大小等;对于文本,可获取摘要、关键词列表、语言等;对于表格,可获取格式、位置、文本内容、任何说明文字或标题等。


Nvidia Ingest 需要大量来自 Nvidia 和开源项目的支持服务,包括 Redis、yolox、用于开放式遥测的 otel-collector、prometheus、grafana 等。为方便部署,它们被打包成一个 Docker Compose 应用程序。它还需要 CUDA 和 Nvidia Container Toolkit 的支持,以及至少两个 H100 或 A100 GPU 和至少 80GM 内存。


原文链接:


https://www.infoq.com/news/2025/01/nvidia-ingest-document-extract/

2025-02-17 17:007106

评论

发布
暂无评论

区块链Web3项目的开发

北京木奇移动技术有限公司

区块链开发 软件外包公司 web3开发

一张图读懂西格电力绿电直连系统架构:源、网、荷、储、碳五流合一

西格电力

新能源 绿色能源转型 零碳园区 绿电直连 可再生能源发电

AI软件项目开发流程

北京木奇移动技术有限公司

AI应用 AI技术开发 软件外包公司

超越监控:利用系统将海外社交媒体数据转化为商业战略

沃观Wovision

海外舆情监控 沃观Wovision 舆情监测系统 社交媒体监控

一体化运维平台:当下运维体系的核心支柱

智象科技

ITSM ITSM软件 ITSM解决方案 一体化智能运维

国外社交媒体监控平台终极指南:功能、收益与入门策略

沃观Wovision

社交媒体 沃观Wovision 舆情监测系统 海外舆情监测

2025年国外社媒监控软件如何评估?聚焦这5个核心维度

沃观Wovision

跨境贸易 出海企业 海外舆情监控 海外社交媒体监控

业务增长快节奏,App 混合开发才高效

xuyinyin

Scrum 与 Kanban 对比:如何用好这两种方法

ShineScrum

Scrum 敏捷 Kanban Kanban管理 看板系统

启信宝电影行业洞察:广东蝉联“双冠王”,票房与企业数量全国第一

合合技术团队

人工智能 大数据 算法

轻帆云ITAM:将IT资产从成本中心转变为战略动能

云智慧AIOps社区

AIOPS 智能化运维 IT资产管理 一体化智能运维平台 itam

海外达人营销策略框架:从目标设定到复盘优化的六步法

Wolink

海外社媒营销 海外营销推广 海外推广 沃链Wolink 达人营销

斯科信息推出 | 全球首个实现零距离防串误读的AI+RFID门禁

斯科信息

AI算法RFID门禁 AI门禁 RFID门禁

从数据到决策:国外社交媒体监控托管服务全解析

沃观Wovision

海外舆情监控 沃观Wovision 舆情监测系统 社交媒体监控

如何用国外社交媒体监控工具快速发现品牌危机与商机

沃观Wovision

社交媒体 沃观Wovision 海外舆情监测 社交媒体监控

宠物去哪啦小程序系统:智能宠物管理与定位解决方案

微擎应用市场

海外APP外包开发流程

北京木奇移动技术有限公司

APP开发 软件外包公司 APP外包公司

AI 赋能应用开发,容器技术护航落地

xuyinyin

直播 QoE 监控体系设计与落地(四):端智能驱动的基于AI卡顿预测与优化

奔跑中的蜗牛666

广告敏感词图文检测微信小程序:高效合规检测解决方案

微擎应用市场

云栖实录|Hologres 4.0全新发布:AI时代的一站式多模态分析平台

阿里云大数据AI技术

阿里云 hologres 多模态分析

Comate Zulu实测:不会编程也能做软件?AI程序员现状令人震惊

Comate编码助手

AI 编程 文心快码Zulu AI编程助手

百度百舸 4 天跑完 LLaVA-OneVision-1.5 预训练,刷新多模态大模型纪录!

新消费日报

MES系统破解机器人组装生产管理的七大难题

万界星空科技

mes 万界星空科技mes 机器人组装行业 扫地机器人 机器人mes

超越监控:将国外社交媒体数据转化为商业战略的咨询服务

沃观Wovision

沃观Wovision 舆情监测系统 海外舆情监测 社交媒体监控

AI应用软件开发的技术架构

北京木奇移动技术有限公司

AI技术开发 软件外包公司 AI应用开发

CMDB报表体系如何驱动智能运维

智象科技

CMDB 一体化运维 一体化运维平台 自动化运维系统

审计syslog设备活动

运维有小邓

日志监控 日志审计 Syslog日志管理

128 卡 4 天时间!百度百舸助力 LLaVA-OneVision-1.5 刷新多模态大模型训练效率纪录

Baidu AICLOUD

多模态 训练加速 Qwen 格灵深瞳

一佳旅游票务系统:旅游行业数字化一体化解决方案

微擎应用市场

三大场景揭秘:运维自动化如何提升效率与安全

智象科技

运维自动化 ITSM ITSM解决方案 一体化智能运维 自动化运维系统

Nvidia Ingest 让从文档中提取结构化信息更简单_AI&大模型_InfoQ精选文章