Neuer Benchmark deckt den Automatisierungengpass in der OCR auf: 98 % Genauigkeit erreichen

2025-03-14

Der Zustrom neuer OCR-Anbieter wie Mistral und Andrew Ngs Angebote macht es Unternehmen schwer, echte Fortschritte von Übertreibungen zu unterscheiden. Bestehende Benchmarks konzentrieren sich auf die Genauigkeit der OCR und die Informationsgewinnung, vernachlässigen aber das Automatisierungsniveau. Nanonets führt einen neuen Benchmark ein, der die Automatisierung bei 98 % Genauigkeit betont. Anhand eines Datensatzes von 1000 Bildern und 16.639 annotierten Datenpunkten messen sie die Modellleistung anhand von Konfidenzwerten – dem Anteil der Daten, die ohne menschliches Eingreifen präzise verarbeitet werden. Während LLMs in der Gesamtgenauigkeit überzeugen, bleiben zuverlässige Konfidenzwerte schwer fassbar. Gemini 2.0 Flash erreichte 98 % Genauigkeit, automatisierte aber nur 8 % der Daten. Dieser Benchmark soll Unternehmen dabei helfen, Lösungen zu finden, die den manuellen Aufwand bei der Dokumentenverarbeitung tatsächlich reduzieren.

Entwicklung