NVIDIA Ingest: Microservices zur effizienten Verarbeitung großer Datenmengen
2025-01-10
NVIDIA Ingest ist eine Reihe von Microservices im Early Access, die entwickelt wurden, um hunderte von Tausenden komplexer, unstrukturierter PDFs und anderer Unternehmensdokumente effizient zu verarbeiten. Es extrahiert Metadaten und Text zum Einbetten in Retrieval-Systeme. Mit Hilfe der NVIDIA NIM-Microservices unterstützt es PDFs, Word, PowerPoint und Bilder, extrahiert Text, Tabellen, Diagramme und Bilder, kontextualisiert sie und gibt strukturierte JSON-Daten aus. Einbettungen können optional berechnet und in einer Milvus-Vektor Datenbank gespeichert werden. Ein Python-Client und eine Kommandozeilenschnittstelle werden zur Vereinfachung der Nutzung bereitgestellt.
Entwicklung
Dokumentenverarbeitung