Rendimiento de los LLM en Advent of Code 2024: Una Sorpresa

2024-12-30
Rendimiento de los LLM en Advent of Code 2024: Una Sorpresa

Esta publicación describe un experimento que prueba varios modelos de lenguaje grandes (LLM) en el desafío Advent of Code 2024. Sorprendentemente, los LLM tuvieron un rendimiento peor del esperado, incluso superando al autor. Se utilizó un marco simple, proporcionando a los modelos la descripción completa del problema y exigiendo código Python ejecutable. Los resultados mostraron timeouts y excepciones frecuentes, lo que sugiere que los LLM sobresalen en la resolución de problemas familiares, pero tienen dificultades con problemas nuevos. Esta limitación podría deberse a la dependencia de plantillas de programas, recursos computacionales insuficientes o una solicitud subóptima. El experimento destaca Advent of Code como un posible punto de referencia para evaluar agentes de codificación.