2024年アドベントオブコードにおけるLLMのパフォーマンス:驚き

2024-12-30

この記事では、2024年のアドベントオブコードチャレンジにおいて、いくつかの主要な大規模言語モデル(LLM)をテストした実験について詳述しています。驚くべきことに、LLMのパフォーマンスは予想を下回り、著者自身よりも劣っていました。シンプルなフレームワークを使用し、モデルに完全な問題の説明を提供し、実行可能なPythonコードを要求しました。その結果、タイムアウトと例外が頻繁に発生し、LLMは既知の問題を解決する際には優れていますが、新しい問題には苦労することが示唆されました。この制限は、プログラムテンプレートへの依存、計算リソースの不足、または最適ではないプロンプトに起因する可能性があります。この実験は、アドベントオブコードがコーディングエージェントを評価するための潜在的なベンチマークになり得ることを強調しています。

続きを読む