LLMs: ¿El fin del OCR tal como lo conocemos?
Desde el Optophone de 1870, una máquina de lectura para ciegos, hasta el OCR actual, el procesamiento de documentos ha recorrido un largo camino. Sin embargo, persisten desafíos debido a las complejidades de los hábitos de escritura humana. El OCR tradicional tiene dificultades con documentos no estandarizados y anotaciones manuscritas. No obstante, la llegada de los LLMs multimodales como Gemini-Flash-2.0 está cambiando las reglas del juego. Aprovechando la capacidad de comprensión de contexto global de la arquitectura Transformer y los vastos datos de entrenamiento de internet, los LLMs pueden comprender estructuras de documentos complejas e incluso extraer información de imágenes con texto mínimo, como dibujos técnicos. Si bien los LLMs son más caros y tienen ventanas de contexto limitadas, sus ventajas en el procesamiento de documentos son significativas, prometiendo una solución a los desafíos de procesamiento de documentos en los próximos años. El enfoque se desplazará hacia la automatización del flujo de documento a sistema de registro, con agentes de IA que ya están resultando útiles.