LLMs scheitern bei komplexem OCR: Warum große Sprachmodelle mit PDFs kämpfen
Pulse, ein Unternehmen, das Daten aus Tabellenkalkulationen und PDFs extrahieren möchte, hat eine kritische Einschränkung bei der Verwendung großer Sprachmodelle (LLMs) für OCR entdeckt. Während LLMs in der Textgenerierung und Zusammenfassung exzellent sind, versagen sie deutlich beim Umgang mit komplexen PDFs und Tabellen. Die probabilistische Natur von LLMs und ihre abstrakte Bildverarbeitung führen zu Halluzinationen, Datenverlust und Fehlinterpretationen, was erhebliche Risiken, insbesondere bei Finanz- und Gesundheitsdaten, darstellt. Darüber hinaus sind LLMs anfällig für Prompt-Injection-Angriffe, was Sicherheits- und ethische Bedenken aufwirft. Pulse hat LLMs für OCR letztendlich aufgegeben und entwickelt eine kundenspezifische Lösung, die traditionelle Computer-Vision-Algorithmen und Vision-Transformer integriert.