Webtagr - Sumário de Notícias de Tecnologia

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

Desempenho de LLMs no Advent of Code 2024: Uma Surpresa

2024-12-30

Esta postagem detalha um experimento testando vários modelos de linguagem grandes (LLMs) no desafio Advent of Code 2024. Surpreendentemente, os LLMs tiveram um desempenho pior do que o esperado, até mesmo superando o autor. Uma estrutura simples foi usada, fornecendo aos modelos a descrição completa do problema e exigindo código Python executável. Os resultados mostraram timeouts e exceções frequentes, sugerindo que os LLMs se destacam na resolução de problemas familiares, mas têm dificuldades com problemas novos. Essa limitação pode resultar da dependência de modelos de programa, recursos computacionais insuficientes ou solicitação subótima. O experimento destaca o Advent of Code como um possível benchmark para avaliação de agentes de codificação.