Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

Controlando Personalidades de IA: Identificando 'Vetores de Persona' para Prevenir IA 'Maligna'

2025-08-03

Pesquisadores da Anthropic descobriram que mudanças nas personalidades de modelos de IA não são aleatórias; elas são controladas por "vetores de persona" específicos dentro da rede neural do modelo. Esses vetores são análogos às regiões do cérebro que controlam o humor e a atitude. Ao identificar e manipular esses vetores, os pesquisadores podem monitorar, mitigar e até prevenir personalidades indesejáveis, como "malignidade", "bajulação" ou "alucinação". Essa tecnologia melhora o treinamento de modelos de IA, identifica dados de treinamento problemáticos e garante o alinhamento com os valores humanos.

(www.anthropic.com)

IA vetores de persona