Mistrals neues OCR-Modell enttäuscht; Google Gemini 2.0 übernimmt die Führung

2025-03-11
Mistrals neues OCR-Modell enttäuscht; Google Gemini 2.0 übernimmt die Führung

Neuere Tests zeigen, dass Mistrals neu veröffentlichtes OCR-spezifisches Modell die Werbeversprechen nicht erfüllt. Die Entwickler Willis und Doria heben Probleme bei der Verarbeitung komplexer Layouts und handschriftlicher Inhalte hervor, darunter die Wiederholung von Städtenamen, numerische Fehler und Halluzinationen. Im Gegensatz dazu zeichnet sich Googles Gemini 2.0 Flash Pro Experimental aus und verarbeitet komplexe PDFs, die Mistral nicht bewältigt, einschließlich solcher mit handschriftlichem Inhalt. Sein großes Kontextfenster ist ein entscheidender Vorteil. Obwohl vielversprechend, leidet LLM-basiertes OCR unter Problemen wie der Erfindung von Informationen, der Fehlinterpretation von Anweisungen und der allgemeinen Fehlinterpretation von Daten.

KI