Die ständig wachsende Größe großer Sprachmodelle
Dieser Artikel verfolgt die Entwicklung der Größe großer Sprachmodelle (LLMs). Von 1,61 Milliarden Parametern bei GPT-2 bis zu 2 Billionen Parametern bei Llama-4 ist die Modellgröße exponentiell gewachsen. Der Artikel beschreibt detailliert die Parameteranzahl, die Größe der Trainingsdaten und die architektonischen Merkmale wichtiger Modelle, darunter dichte Modelle und Mixture-of-Experts (MoE)-Modelle. Die Entstehung von MoE-Architekturen hat es ermöglicht, größere Modelle zu trainieren und zu verwenden. Das Wachstum der Modellgröße hat jedoch auch neue Herausforderungen mit sich gebracht, wie z. B. Datenverzerrungen und die Interpretierbarkeit von Modellen. Der Artikel schließt mit der Erforschung zukünftiger Entwicklungen von LLMs und fordert mehr Forschung, um sich auf die Entwicklung reiner Textfortsetzungs-Engines zu konzentrieren, anstatt nur nach hohen Punktzahlen bei Benchmarks zu streben.