Avaliando LLMs em Aventuras de Texto: Uma Nova Abordagem

2025-08-12

Este artigo propõe um novo método para avaliar as capacidades de modelos de linguagem grandes (LLMs) em jogos de aventura de texto. A abordagem envolve definir um limite de turnos e um conjunto de conquistas no jogo para medir o quão bem um LLM consegue progredir dentro dessas restrições. Devido ao alto grau de liberdade e ramificação em aventuras de texto, este método não foi projetado para fornecer uma pontuação de desempenho absoluta, mas sim para oferecer uma comparação relativa entre diferentes LLMs. O LLM recebe uma série de metas de conquistas e um número limitado de turnos para alcançá-las; a pontuação final é baseada no número de conquistas concluídas. Mesmo LLMs poderosos lutam para explorar todos os ramos dentro do limite de turnos, tornando a pontuação um reflexo da capacidade relativa em vez da habilidade absoluta de jogo.