Nuevo servicio de extracción de documentos de Andrew Ng: desafíos de precisión

2025-02-28
Nuevo servicio de extracción de documentos de Andrew Ng: desafíos de precisión

El nuevo servicio de extracción de documentos lanzado por Andrew Ng se volvió viral en X, pero las pruebas de Pulse revelaron problemas significativos con estados financieros complejos, incluyendo más del 50% de valores alucinados, signos negativos y marcadores de moneda faltantes. El artículo argumenta que estos errores pueden ser catastróficos para sectores que dependen de datos precisos, como el financiero. La solución de Pulse combina la visión por computadora tradicional con modelos de transformador de tablas patentados, logrando mayor precisión y menor latencia, solucionando la naturaleza no determinista, la baja conciencia espacial y la lentitud del procesamiento de los modelos de lenguaje grandes (LLMs) en la extracción de documentos.

Leer más

Los LLM fallan en OCR complejo: Por qué los grandes modelos de lenguaje tienen problemas con los PDF

2025-02-07
Los LLM fallan en OCR complejo: Por qué los grandes modelos de lenguaje tienen problemas con los PDF

Pulse, una empresa que busca extraer datos de hojas de cálculo y PDF, descubrió una limitación crítica en el uso de Grandes Modelos de Lenguaje (LLM) para OCR. Si bien los LLM sobresalen en la generación de texto y el resumen, fallan significativamente al tratar con PDF y tablas complejas. La naturaleza probabilística de los LLM y su procesamiento abstracto de imágenes conducen a alucinaciones, pérdida de datos e interpretaciones incorrectas, lo que representa riesgos significativos, especialmente con datos financieros y médicos. Además, los LLM son vulnerables a los ataques de inyección de prompt, lo que genera preocupaciones de seguridad y éticas. Pulse finalmente abandonó los LLM para OCR y está desarrollando una solución personalizada que integra algoritmos tradicionales de visión artificial y transformadores de visión.

Leer más