Compressão Introspectiva em Tempo Real: Dando Consciência aos Transformers

2025-04-02
Compressão Introspectiva em Tempo Real: Dando Consciência aos Transformers

Grandes modelos de linguagem (LLMs) sofrem de duas limitações principais: falta de introspecção e cognição efêmera. Este artigo propõe um novo método de compressão introspectiva em tempo real que aborda ambas. Um modelo "parasita" leve é treinado para comprimir os estados internos de um transformer, permitindo acesso e reprodução eficientes do funcionamento interno do modelo. O método comprime os estados do transformer em um espaço latente de baixa dimensionalidade, semelhante ao salvamento de um estado de jogo, superando assim o obstáculo computacional de armazenar o estado completo. Isso permite novas capacidades, como rastreamento de raciocínio, aprendizado por reforço em trajetórias de pensamento e salvamento de checkpoints com eficiência de memória, levando, em última análise, a sistemas de IA mais poderosos e interpretáveis.