Évaluation des LLMs dans les jeux d'aventure textuels : une nouvelle approche
Cet article propose une nouvelle méthode pour évaluer les capacités des grands modèles de langage (LLMs) dans les jeux d'aventure textuels. L'approche consiste à définir une limite de tours et un ensemble de succès en jeu pour mesurer la progression d'un LLM sous ces contraintes. En raison de la grande liberté et des nombreuses ramifications des jeux d'aventure textuels, cette méthode n'est pas conçue pour fournir un score de performance absolu, mais plutôt une comparaison relative entre différents LLMs. Le LLM reçoit une série d'objectifs de succès et un nombre limité de tours pour les atteindre ; le score final est basé sur le nombre de succès atteints. Même les LLMs puissants ont du mal à explorer toutes les branches dans la limite de tours, faisant du score un reflet de la capacité relative plutôt que de l'habileté de jeu absolue.