Evaluando LLMs en Aventuras de Texto: Un Enfoque Innovador
Este artículo propone un nuevo método para evaluar las capacidades de los modelos de lenguaje grandes (LLMs) en juegos de aventura de texto. El enfoque consiste en establecer un límite de turnos y definir un conjunto de logros dentro del juego para medir qué tan bien un LLM puede progresar dentro de esas restricciones. Debido al alto grado de libertad y ramificación en las aventuras de texto, este método no está diseñado para proporcionar una puntuación de rendimiento absoluta, sino para ofrecer una comparación relativa entre diferentes LLMs. El LLM recibe una serie de objetivos de logros y un número limitado de turnos para alcanzarlos; la puntuación final se basa en el número de logros completados. Incluso los LLMs potentes luchan por explorar todas las ramas dentro del límite de turnos, lo que convierte la puntuación en un reflejo de la capacidad relativa en lugar de la habilidad absoluta de juego.