Aprendizado Subliminar: Um Perigo Oculto em LLMs

2025-07-23

Uma nova pesquisa revela um fenômeno preocupante em modelos de linguagem grandes (LLMs) chamado "aprendizado subliminar". Modelos estudantes aprendem características de modelos professores, mesmo quando os dados de treinamento parecem não relacionados a essas características (por exemplo, preferência por corujas, desalinhamento). Isso ocorre mesmo com filtragem rigorosa de dados e apenas quando o modelo professor e o modelo estudante compartilham o mesmo modelo base. As implicações para a segurança da IA são significativas, pois sugere que filtrar comportamentos ruins pode ser insuficiente para impedir que os modelos aprendam tendências ruins, necessitando de métodos de avaliação de segurança mais profundos.

Leia mais