Kreuzberg: 강력한 로컬 문서 텍스트 추출 Python 라이브러리

2025-02-15
Kreuzberg: 강력한 로컬 문서 텍스트 추출 Python 라이브러리

Kreuzberg는 다양한 문서에서 텍스트를 추출하는 강력한 Python 라이브러리입니다. PDF, 이미지, 오피스 문서 등 다양한 형식을 지원하는 통합 비동기 인터페이스를 제공합니다. 이 라이브러리는 로컬 처리에 중점을 두고 있으며, 외부 API나 클라우드 서비스에 의존하지 않습니다. 리소스 효율이 높고, 종속성이 적으며, 배치 처리도 지원합니다. Kreuzberg는 PDF 텍스트 추출에 대해 스마트한 접근 방식을 채택하여, 먼저 직접 텍스트 추출을 시도하고, 실패하면 OCR로 자동으로 대체합니다. 비동기/동기 API, 메타데이터 추출, 병렬 처리 등의 포괄적인 기능과 오류 처리를 제공합니다.