Webtagr - Technologienummer

OpenAI veröffentlicht gpt-oss: Leistungsstarke, lokal ausführbare Open-Weight LLMs

2025-08-10

OpenAI hat diese Woche seine neuen Open-Weight LLMs veröffentlicht: gpt-oss-120b und gpt-oss-20b, die ersten Open-Weight-Modelle seit GPT-2 im Jahr 2019. Überraschenderweise können sie dank cleverer Optimierungen lokal ausgeführt werden. Dieser Artikel untersucht die Architektur des gpt-oss-Modells und vergleicht sie mit Modellen wie GPT-2 und Qwen3. Er hebt einzigartige architektonische Entscheidungen hervor, wie z. B. Mixture-of-Experts (MoE), Grouped Query Attention (GQA) und Sliding-Window-Attention. Obwohl Benchmarks zeigen, dass gpt-oss in einigen Bereichen mit proprietären Modellen vergleichbare Leistungen erzielt, machen seine lokale Ausführungsfähigkeit und sein Open-Source-Charakter ihn zu einer wertvollen Ressource für Forschung und Anwendungen.

(magazine.sebastianraschka.com)

KI

Entwicklung der LLM-Architektur im Jahr 2025: Tiefer Einblick in DeepSeek, OLMo, Gemma, Mistral und Qwen

2025-07-20

Dieser Artikel befasst sich mit den architektonischen Fortschritten bei großen Sprachmodellen (LLMs) im Jahr 2025 und konzentriert sich dabei auf Open-Source-Modelle wie DeepSeek, OLMo, Gemma, Mistral und Qwen. DeepSeek V3/R1 verbessert die Rechenleistung durch Multi-Head Latent Attention (MLA) und Mixture-of-Experts (MoE). OLMo 2 betont die Platzierung von RMSNorm und verwendet Post-Norm und QK-Norm. Gemma 3 nutzt Sliding Window Attention, um den Speicherbedarf zu reduzieren. Mistral Small 3.1 findet einen Ausgleich zwischen Leistung und Geschwindigkeit. Qwen 3 bietet sowohl dichte als auch MoE-Varianten für mehr Flexibilität. SmolLM3 zeichnet sich durch seine Größe von 3 Milliarden Parametern und NoPE (No Positional Embeddings) aus. Schließlich beeindruckt Kimi 2 mit seiner Billionen-Parameter-Skala und dem Muon-Optimierer. Diese Modelle zeigen Innovationen in den Aufmerksamkeitsmechanismen, der Normalisierung, MoE und Optimierern und demonstrieren die Vielfalt und die kontinuierliche Weiterentwicklung von LLM-Architekturen.

(magazine.sebastianraschka.com)

KI Architekturinnovationen

Vier Ansätze zum Bau von Reasonierungsmodellen für LLMs

2025-02-06

Dieser Artikel untersucht vier Hauptansätze zur Verbesserung von Large Language Models (LLMs) mit Reasonierungsfähigkeiten: Inferenzzeit-Skalierung, reines Reinforcement Learning, überwachtes Feintuning plus Reinforcement Learning und Modelldestillation. Die Entwicklung von DeepSeek R1 wird als Fallstudie verwendet, die zeigt, wie diese Methoden leistungsstarke Reasonierungsmodelle erstellen können und wie selbst Forscher mit begrenztem Budget durch Destillation beeindruckende Ergebnisse erzielen können. Der Artikel vergleicht auch DeepSeek R1 mit OpenAIs o1 und diskutiert Strategien zum Erstellen kostengünstiger Reasonierungsmodelle.

(magazine.sebastianraschka.com)

KI