Les LLM échouent en OCR complexe : pourquoi les grands modèles de langage ont du mal avec les PDF
Pulse, une entreprise qui vise à extraire des données de feuilles de calcul et de PDF, a découvert une limitation critique dans l'utilisation de grands modèles de langage (LLM) pour l'OCR. Bien que les LLM excellent dans la génération de texte et la summarisation, ils échouent considérablement lorsqu'ils traitent des PDF et des tableaux complexes. La nature probabiliste des LLM et leur traitement abstrait des images conduisent à des hallucinations, à des pertes de données et à des interprétations incorrectes, ce qui représente des risques importants, notamment pour les données financières et médicales. De plus, les LLM sont vulnérables aux attaques par injection de prompt, soulevant des préoccupations de sécurité et d'éthique. Pulse a finalement abandonné les LLM pour l'OCR et développe une solution personnalisée intégrant des algorithmes traditionnels de vision par ordinateur et des transformateurs de vision.