Kreuzberg:一款强大的本地文档文本提取Python库

2025-02-15
Kreuzberg:一款强大的本地文档文本提取Python库

Kreuzberg是一个强大的Python库,用于从各种文档中提取文本。它提供了一个统一的异步接口,支持PDF、图像、办公文档等多种格式。该库注重本地处理,无需依赖外部API或云服务,资源效率高,依赖项少,并支持批量处理。Kreuzberg还具有智能的PDF文本提取方法,先尝试直接提取文本,如果失败则自动回退到OCR。它提供了全面的错误处理和丰富的功能,例如异步/同步API、元数据提取和并发处理。

开发 文本提取