Modellkollaps: Das Risiko der Selbstkannibalisierung von KI
Mit der zunehmenden Verbreitung großer Sprachmodelle (LLMs) gewinnt ein Risiko namens „Modellkollaps“ an Bedeutung. Da LLMs zunehmend mit selbstgenerierten Texten trainiert werden, weichen die Trainingsdaten von realen Daten ab, was zu einer Verringerung der Modellgenauigkeit und sogar zu sinnlosen Ergebnissen führen kann. Forschungen zeigen, dass dieses Problem nicht auf LLMs beschränkt ist; jedes iterativ trainierte generative Modell kann ähnliche Risiken aufweisen. Während die Datenakkumulation diese Verschlechterung verlangsamt, erhöht sie die Rechenkosten. Forscher untersuchen die Datenkuratierung und die Modell-Selbstbewertung, um die Qualität synthetischer Daten zu verbessern, den Modellkollaps zu verhindern und die daraus resultierenden Diversitätsprobleme zu lösen.