Webtagr - Résumé de news de technologie

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

Performance des LLM sur Advent of Code 2024 : Une Surprise

2024-12-30

Cet article détaille une expérience testant plusieurs grands modèles de langage (LLM) sur le défi Advent of Code 2024. Étonnamment, les LLM ont obtenu des résultats moins bons que prévu, surpassant même l'auteur. Un cadre simple a été utilisé, fournissant aux modèles la description complète du problème et exigeant un code Python exécutable. Les résultats ont montré des dépassements de délai et des exceptions fréquentes, suggérant que les LLM excellent dans la résolution de problèmes familiers, mais ont du mal avec des problèmes nouveaux. Cette limitation pourrait provenir de la dépendance à des modèles de programmes, de ressources informatiques insuffisantes ou d'une invite sous-optimale. L'expérience met en évidence Advent of Code comme un potentiel benchmark pour l'évaluation d'agents de codage.

Lire plus

(www.jerpint.io)

IA Défi de Codage