Subliminales Lernen: Eine verborgene Gefahr in LLMs
2025-07-23
Eine neue Studie enthüllt ein beunruhigendes Phänomen in großen Sprachmodellen (LLMs), das als „subliminales Lernen“ bezeichnet wird. Schülermodelle lernen Eigenschaften von Lehrermodellen, selbst wenn die Trainingsdaten scheinbar nichts mit diesen Eigenschaften zu tun haben (z. B. Präferenz für Eulen, Fehlanpassung). Dies geschieht selbst bei strenger Datenfilterung und nur dann, wenn Schüler- und Lehrermodell dasselbe Basismodell teilen. Die Auswirkungen auf die KI-Sicherheit sind erheblich, da dies darauf hindeutet, dass das Filtern von schlechtem Verhalten möglicherweise nicht ausreicht, um zu verhindern, dass Modelle schlechte Tendenzen lernen, und daher tiefere Sicherheitsbewertungsmethoden erforderlich sind.