NVIDIA Ingest: 대량 문서를 효율적으로 파싱하는 마이크로서비스

2025-01-10
NVIDIA Ingest: 대량 문서를 효율적으로 파싱하는 마이크로서비스

NVIDIA Ingest는 복잡하고, 불규칙하며, 비정형적인 수십만 개의 PDF 및 기타 엔터프라이즈 문서를 효율적으로 파싱하도록 설계된 조기 액세스 마이크로서비스 세트입니다. 검색 시스템에 포함할 메타데이터와 텍스트를 추출합니다. NVIDIA NIM 마이크로서비스를 활용하여 PDF, Word, PowerPoint, 이미지를 지원하며, 텍스트, 표, 차트, 이미지를 추출하고, 컨텍스트화하여 구조화된 JSON을 출력합니다. 임베딩은 선택적으로 계산되어 Milvus 벡터 데이터베이스에 저장될 수 있습니다. 사용 편의성을 위해 Python 클라이언트와 명령줄 인터페이스가 제공됩니다.

개발 문서 파싱