Bewertung von LLMs in Textabenteuern: Ein neuer Ansatz

2025-08-12

Dieser Artikel schlägt eine neue Methode zur Bewertung der Fähigkeiten großer Sprachmodelle (LLMs) in Textabenteuerspielen vor. Der Ansatz besteht darin, ein Rundenlimit und eine Reihe von Erfolgen im Spiel zu definieren, um zu messen, wie gut ein LLM unter diesen Einschränkungen vorankommt. Aufgrund der großen Freiheit und der vielen Verzweigungen in Textabenteuern ist diese Methode nicht darauf ausgelegt, eine absolute Leistungsbewertung zu liefern, sondern eher einen relativen Vergleich zwischen verschiedenen LLMs zu ermöglichen. Das LLM erhält eine Reihe von Erfolgszielen und eine begrenzte Anzahl von Runden, um diese zu erreichen; der endgültige Score basiert auf der Anzahl der erreichten Erfolge. Selbst leistungsstarke LLMs haben Schwierigkeiten, alle Verzweigungen innerhalb des Rundenlimits zu erkunden, wodurch der Score eher die relative Fähigkeit als die absolute Spielfähigkeit widerspiegelt.