Los LLM fallan en una verificación de hechos del mundo real: una marcada división en las capacidades
2025-06-05
El autor probó varios modelos de lenguaje grandes (LLM) en una tarea compleja de verificación de hechos del mundo real sobre los efectos a largo plazo de los medicamentos para el TDAH. Los resultados revelaron una brecha significativa en el rendimiento: algunos LLM citaron y resumieron con precisión documentos del mundo real, mientras que otros sufrieron graves 'alucinaciones de enlaces' e interpretaciones erróneas de la fuente. El autor argumenta que los métodos actuales de prueba de LLM son demasiado simplistas y no logran evaluar adecuadamente su capacidad para manejar información compleja, pidiendo una mayor atención a este problema crítico.
Leer más