Performance des LLM sur Advent of Code 2024 : Une Surprise
Cet article détaille une expérience testant plusieurs grands modèles de langage (LLM) sur le défi Advent of Code 2024. Étonnamment, les LLM ont obtenu des résultats moins bons que prévu, surpassant même l'auteur. Un cadre simple a été utilisé, fournissant aux modèles la description complète du problème et exigeant un code Python exécutable. Les résultats ont montré des dépassements de délai et des exceptions fréquentes, suggérant que les LLM excellent dans la résolution de problèmes familiers, mais ont du mal avec des problèmes nouveaux. Cette limitation pourrait provenir de la dépendance à des modèles de programmes, de ressources informatiques insuffisantes ou d'une invite sous-optimale. L'expérience met en évidence Advent of Code comme un potentiel benchmark pour l'évaluation d'agents de codage.
Lire plus