Verbesserung des Fein-Tunings von LLMs durch iterative Datenkuratierung

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

Verbesserung des Fein-Tunings von LLMs durch iterative Datenkuratierung

2025-08-08

Forscher haben die Leistung großer Sprachmodelle (LLMs) durch iterative Kuratierung ihrer Trainingsdaten deutlich verbessert. Experimente umfassten zwei LLMs unterschiedlicher Größe (Gemini Nano-1 und Nano-2) bei Aufgaben unterschiedlicher Komplexität, wobei ca. 100.000 Crowd-Annotationen verwendet wurden, die anfänglich unter einem starken Klassenungleichgewicht litten (95% gutartig). Durch iterative Expertenkuratierung und Modell-Feintuning stieg die Leistung deutlich an. Die Modelle erreichten etwa 40% positive Beispiele und einen Cohen's Kappa von ca. 0,81 (geringere Komplexität) und 0,78 (höhere Komplexität) und näherten sich so der Expertenleistung an. Dies unterstreicht die entscheidende Rolle hochwertiger Daten beim Training von LLMs.

(research.google)

KI Datenkuratierung

Flipper Zero Firmware umgeht Autosicherheit: Entsperren mit einem einzigen Knopfdruck

Kritische Schwachstelle in weit verbreiteter TETRA-Verschlüsselung entdeckt