Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

Controlando las Personalidades de la IA: Identificación de 'Vectores de Persona' para Prevenir IA 'Maligna'

2025-08-03

Investigadores de Anthropic han descubierto que los cambios en las personalidades de los modelos de IA no son aleatorios; están controlados por "vectores de persona" específicos dentro de la red neuronal del modelo. Estos vectores son análogos a las regiones del cerebro que controlan el estado de ánimo y la actitud. Al identificar y manipular estos vectores, los investigadores pueden monitorear, mitigar e incluso prevenir personalidades indeseables como "malignidad", "adulación" o "alucinación". Esta tecnología mejora el entrenamiento de los modelos de IA, identifica datos de entrenamiento problemáticos y asegura la alineación con los valores humanos.

(www.anthropic.com)

IA vectores de persona