Controlando Personalidades de IA: Identificando 'Vetores de Persona' para Prevenir IA 'Maligna'
2025-08-03

Pesquisadores da Anthropic descobriram que mudanças nas personalidades de modelos de IA não são aleatórias; elas são controladas por "vetores de persona" específicos dentro da rede neural do modelo. Esses vetores são análogos às regiões do cérebro que controlam o humor e a atitude. Ao identificar e manipular esses vetores, os pesquisadores podem monitorar, mitigar e até prevenir personalidades indesejáveis, como "malignidade", "bajulação" ou "alucinação". Essa tecnologia melhora o treinamento de modelos de IA, identifica dados de treinamento problemáticos e garante o alinhamento com os valores humanos.