Webtagr - Resumen de noticias de tecnología

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

Los LLM fallan en una verificación de hechos del mundo real: una marcada división en las capacidades

2025-06-05

El autor probó varios modelos de lenguaje grandes (LLM) en una tarea compleja de verificación de hechos del mundo real sobre los efectos a largo plazo de los medicamentos para el TDAH. Los resultados revelaron una brecha significativa en el rendimiento: algunos LLM citaron y resumieron con precisión documentos del mundo real, mientras que otros sufrieron graves 'alucinaciones de enlaces' e interpretaciones erróneas de la fuente. El autor argumenta que los métodos actuales de prueba de LLM son demasiado simplistas y no logran evaluar adecuadamente su capacidad para manejar información compleja, pidiendo una mayor atención a este problema crítico.

(mikecaulfield.substack.com)

IA Discrepancia de Capacidad de IA