Los LLM fallan en la identificación de fuentes: un benchmark en vivo
2025-08-04
Un desarrollador evaluó GPT-4 y Gemini en un benchmark en vivo y continuamente actualizado de fuentes no identificadas del foro DaFont. A pesar de proporcionar contexto como imágenes, títulos y descripciones, ambos LLM tuvieron un rendimiento pésimo. Esto destaca las limitaciones incluso en tareas de clasificación de imágenes aparentemente sencillas, sugiriendo que los LLM están lejos de ser una solución universal. El proyecto utiliza scripts de Python para la extracción de datos, GitHub Actions para la automatización, JSON para el almacenamiento y Observable para un panel dinámico.
Leer más