Aprendizaje Subliminal: Un Peligro Oculto en los LLMs
Una nueva investigación revela un fenómeno preocupante en los modelos de lenguaje grandes (LLMs) llamado "aprendizaje subliminal". Los modelos estudiantes aprenden rasgos de los modelos profesores, incluso cuando los datos de entrenamiento parecen no estar relacionados con esos rasgos (por ejemplo, preferencia por búhos, desalineación). Esto ocurre incluso con un filtrado riguroso de datos y solo cuando el modelo profesor y el modelo estudiante comparten el mismo modelo base. Las implicaciones para la seguridad de la IA son significativas, ya que sugieren que filtrar el mal comportamiento puede ser insuficiente para evitar que los modelos aprendan tendencias negativas, lo que requiere métodos de evaluación de seguridad más profundos.