Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

Avaliando LLMs em Aventuras de Texto: Uma Nova Abordagem

2025-08-12

Este artigo propõe um novo método para avaliar as capacidades de modelos de linguagem grandes (LLMs) em jogos de aventura de texto. A abordagem envolve definir um limite de turnos e um conjunto de conquistas no jogo para medir o quão bem um LLM consegue progredir dentro dessas restrições. Devido ao alto grau de liberdade e ramificação em aventuras de texto, este método não foi projetado para fornecer uma pontuação de desempenho absoluta, mas sim para oferecer uma comparação relativa entre diferentes LLMs. O LLM recebe uma série de metas de conquistas e um número limitado de turnos para alcançá-las; a pontuação final é baseada no número de conquistas concluídas. Mesmo LLMs poderosos lutam para explorar todos os ramos dentro do limite de turnos, tornando a pontuação um reflexo da capacidade relativa em vez da habilidade absoluta de jogo.

(entropicthoughts.com)

IA Jogos de Aventura de Texto