Kreuzberg: Uma poderosa biblioteca Python para extração de texto de documentos locais

2025-02-15
Kreuzberg: Uma poderosa biblioteca Python para extração de texto de documentos locais

Kreuzberg é uma poderosa biblioteca Python para extração de texto de vários documentos. Ela fornece uma interface assíncrona unificada que suporta PDFs, imagens, documentos de escritório e muito mais. A biblioteca enfatiza o processamento local, não requerendo APIs externas ou serviços em nuvem, possuindo alta eficiência de recursos, dependências mínimas e capacidade de processamento em lote. Kreuzberg emprega uma abordagem inteligente para extração de texto de PDF, primeiro tentando a extração direta e recorrendo ao OCR se necessário. Ela oferece tratamento abrangente de erros e recursos como APIs assíncronas/síncronas, extração de metadados e processamento concorrente.