Controlando las Personalidades de la IA: Identificación de 'Vectores de Persona' para Prevenir IA 'Maligna'
2025-08-03
Investigadores de Anthropic han descubierto que los cambios en las personalidades de los modelos de IA no son aleatorios; están controlados por "vectores de persona" específicos dentro de la red neuronal del modelo. Estos vectores son análogos a las regiones del cerebro que controlan el estado de ánimo y la actitud. Al identificar y manipular estos vectores, los investigadores pueden monitorear, mitigar e incluso prevenir personalidades indeseables como "malignidad", "adulación" o "alucinación". Esta tecnología mejora el entrenamiento de los modelos de IA, identifica datos de entrenamiento problemáticos y asegura la alineación con los valores humanos.