Extraktion von Trainingsdaten aus LLMs: Umkehrung der Wissenskompression

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

Extraktion von Trainingsdaten aus LLMs: Umkehrung der Wissenskompression

2025-09-20

Forscher haben eine Technik entwickelt, um strukturierte Datensätze aus großen Sprachmodellen (LLMs) zu extrahieren. Dies kehrt den Prozess um, bei dem LLMs riesige Mengen an Trainingsdaten in ihre Parameter komprimieren. Die Methode verwendet eine hierarchische Themenexploration, um den Wissensraum des Modells systematisch zu durchlaufen und Trainingsbeispiele zu generieren, die sowohl Faktenwissen als auch Denkprozesse erfassen. Diese Technik wurde erfolgreich auf Open-Source-Modelle wie Qwen3-Coder, GPT-OSS und Llama 3 angewendet und hat Zehntausende strukturierter Trainingsbeispiele erzeugt. Diese Datensätze finden Anwendung in der Modellanalyse, dem Wissenstransfer, der Erweiterung von Trainingsdaten und dem Debugging von Modellen. Diese Forschung eröffnet neue Wege für die Interpretierbarkeit von Modellen und den Wissenstransfer zwischen Modellen.

(www.scalarlm.com)

KI Wissensextraktion

Schrei-Chiffre: Eine neuartige Verwendung von Unicode-Zeichen

Claude Code: Ein unerwarteter Durchbruch in der KI-gestützten interaktiven Theorembeweisführung