NVIDIA Ingest:高效解析海量文档的微服务套件
2025-01-10
NVIDIA Ingest 是一款早期访问的微服务套件,能够高效解析数十万个复杂、凌乱的非结构化 PDF 和其他企业文档,提取元数据和文本,并将其嵌入检索系统。它支持 PDF、Word、PowerPoint 和图像,并利用 NVIDIA NIM 微服务进行文本、表格、图表和图像的提取和上下文化处理,最终生成结构化的 JSON 数据,并可选地计算嵌入向量并存储到 Milvus 向量数据库中。该项目提供 Python 客户端和命令行工具,方便用户使用。
开发
文档解析