Desempenho de LLMs no Advent of Code 2024: Uma Surpresa

2024-12-30

Esta postagem detalha um experimento testando vários modelos de linguagem grandes (LLMs) no desafio Advent of Code 2024. Surpreendentemente, os LLMs tiveram um desempenho pior do que o esperado, até mesmo superando o autor. Uma estrutura simples foi usada, fornecendo aos modelos a descrição completa do problema e exigindo código Python executável. Os resultados mostraram timeouts e exceções frequentes, sugerindo que os LLMs se destacam na resolução de problemas familiares, mas têm dificuldades com problemas novos. Essa limitação pode resultar da dependência de modelos de programa, recursos computacionais insuficientes ou solicitação subótima. O experimento destaca o Advent of Code como um possível benchmark para avaliação de agentes de codificação.

Leia mais