IA Conquista Pokémon Red: O Triunfo de um Pequeno Agente de RL

2025-03-05

Uma equipe derrotou com sucesso o jogo Pokémon Red de 1996 usando aprendizado por reforço (RL) com uma política contendo menos de 10 milhões de parâmetros — mais de 60.000 vezes menor que o DeepSeekV3. O projeto é de código aberto e utiliza ferramentas de engenharia reversa do Pokémon e emuladores de jogos existentes. A equipe escolheu RL por sua coleta de dados eficiente, eliminando a necessidade de grandes conjuntos de dados pré-treinados. Isso representa um avanço na IA conquistando jogos complexos, estabelecendo um novo benchmark para RL em ambientes mais desafiadores.

IA