Webtagr - Technologienummer

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

Andrew Ngs neuer Dokumentenextraktionsservice: Herausforderungen bei der Genauigkeit

2025-02-28

Andrew Ngs neu veröffentlichter Dokumentenextraktionsservice wurde auf X viral, aber Tests von Pulse zeigten erhebliche Probleme bei komplexen Finanzberichten, darunter über 50 % halluzinierte Werte, fehlende Minuszeichen und Währungssymbole. Der Artikel argumentiert, dass solche Fehler für Branchen, die auf präzise Daten angewiesen sind, wie z. B. die Finanzbranche, katastrophale Folgen haben können. Die Lösung von Pulse kombiniert traditionelle Computer-Vision-Algorithmen mit proprietären Tabellen-Transformer-Modellen und erreicht so eine höhere Genauigkeit und niedrigere Latenz. Dies behebt die nicht-deterministische Natur, das schlechte räumliche Bewusstsein und die langsame Verarbeitungsgeschwindigkeit von LLMs bei der Dokumentenextraktion.

LLMs scheitern bei komplexem OCR: Warum große Sprachmodelle mit PDFs kämpfen

2025-02-07

Pulse, ein Unternehmen, das Daten aus Tabellenkalkulationen und PDFs extrahieren möchte, hat eine kritische Einschränkung bei der Verwendung großer Sprachmodelle (LLMs) für OCR entdeckt. Während LLMs in der Textgenerierung und Zusammenfassung exzellent sind, versagen sie deutlich beim Umgang mit komplexen PDFs und Tabellen. Die probabilistische Natur von LLMs und ihre abstrakte Bildverarbeitung führen zu Halluzinationen, Datenverlust und Fehlinterpretationen, was erhebliche Risiken, insbesondere bei Finanz- und Gesundheitsdaten, darstellt. Darüber hinaus sind LLMs anfällig für Prompt-Injection-Angriffe, was Sicherheits- und ethische Bedenken aufwirft. Pulse hat LLMs für OCR letztendlich aufgegeben und entwickelt eine kundenspezifische Lösung, die traditionelle Computer-Vision-Algorithmen und Vision-Transformer integriert.