2.3Kstar！英伟达开源的智能文档提取工具：NVIDIA-Ingest！

摘要：NVIDIA-Ingest是英伟达开源的用于解析复杂、混乱的非结构化PDF和其他企业文档的微服务集合。它能将文档转换为元数据和文本，便于嵌入到检索系统中。NVIDIA-Ingest支持PDF、Word、PowerPoint和图像等多种文档格式，提供多种提取方法

NVIDIA-Ingest是英伟达开源的用于解析复杂、混乱的非结构化PDF和其他企业文档的微服务集合。它能将文档转换为元数据和文本，便于嵌入到检索系统中。NVIDIA-Ingest支持PDF、Word、PowerPoint和图像等多种文档格式，提供多种提取方法，便于在吞吐量和准确性之间进行权衡。NVIDIA-Ingest支持预处理和后处理操作，如文本分割、转换、过滤、嵌入生成和图像存储。NVIDIA-Ingest基于并行化文档处理，提高提取效率，支持将提取内容嵌入到Milvus等向量数据库中，适用于大规模文档处理和生成式应用。

功能作用：

多格式文档支持:支持解析 PDF、Word (Docx)、PowerPoint(Pptx)和图像等多种复杂的企业文档格式

多方法提取:支持多种提取方法，便于在吞吐量和准确性之间进行权衡。例如，PDF 文档支持 pdfium、Unstructured.io 和Adobe Content Extraction Services 进行提职。

内容分类与提取:将文档内容分类为文本、表格、图表和图像,分别提取这些内容。用光学字符识别(OCR)技术将提取的内容进一步上下文化，并转换为定义良好的 JSON 模式。

并行处理:支持将文档拆分为页面，并行处理每个页面的内容提取，提高处理效率。

预处理和后处理:支持多种预处理和后处理操作，包括文本分割和分块、内容转换、过滤、嵌入生成和图像存储。

GitHub地址：https://github.com/NVIDIA/nv-ingest

来源：AI-GitHub

标签：英伟达开源并行处理 pptx 英伟达开源

本文地址：https://news.43u.com.cn/a/671400.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐