Rendimiento de los LLM en Advent of Code 2024: Una Sorpresa

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

2024-12-30

Esta publicación describe un experimento que prueba varios modelos de lenguaje grandes (LLM) en el desafío Advent of Code 2024. Sorprendentemente, los LLM tuvieron un rendimiento peor del esperado, incluso superando al autor. Se utilizó un marco simple, proporcionando a los modelos la descripción completa del problema y exigiendo código Python ejecutable. Los resultados mostraron timeouts y excepciones frecuentes, lo que sugiere que los LLM sobresalen en la resolución de problemas familiares, pero tienen dificultades con problemas nuevos. Esta limitación podría deberse a la dependencia de plantillas de programas, recursos computacionales insuficientes o una solicitud subóptima. El experimento destaca Advent of Code como un posible punto de referencia para evaluar agentes de codificación.