Apertus: Ein vollständig offenes, mehrsprachiges großes Sprachmodell

2025-09-06
Apertus: Ein vollständig offenes, mehrsprachiges großes Sprachmodell

Apertus ist ein vollständig offenes, mehrsprachiges großes Sprachmodell (LLM) mit 70 Milliarden und 8 Milliarden Parametern, das über 1000 Sprachen und lange Kontexte unterstützt. Es wurde mit 15 Billionen Token vollständig konformer, offener Daten trainiert und erreicht eine vergleichbare Leistung wie Modelle, die hinter verschlossenen Türen trainiert wurden. Apertus verwendet eine neue xIELU-Aktivierungsfunktion und den AdEMAMix-Optimierer und wurde mit überwachtem Feintuning und QRPO-Ausrichtung trainiert. Gewichte, Daten und Trainingsdetails sind öffentlich verfügbar und respektieren das Opt-out-Einverständnis der Datenbesitzer und vermeiden das Auswendiglernen von Trainingsdaten. Apertus ist in die Transformers-Bibliothek integriert und unterstützt verschiedene Bereitstellungsmethoden. Trotz seiner Leistungsfähigkeit sollten Benutzer mögliche Ungenauigkeiten und Verzerrungen in der Ausgabe beachten.

Mehr lesen
KI

Qwen3-235B-A22B-Thinking-2507: Ein bedeutendes Upgrade für Open-Source-Reasoning-Modelle

2025-07-25
Qwen3-235B-A22B-Thinking-2507: Ein bedeutendes Upgrade für Open-Source-Reasoning-Modelle

Qwen3-235B-A22B-Thinking-2507 stellt ein bedeutendes Upgrade für Open-Source-Large-Language-Modelle dar, mit bahnbrechenden Fortschritten in den Fähigkeiten zum logischen Schließen. Es erzielt State-of-the-Art-Ergebnisse bei Aufgaben wie logischem Schließen, Mathematik, Naturwissenschaften, Programmierung und akademischen Benchmarks und zeigt überlegene Leistung bei verschiedenen komplexen Aufgaben. Das Modell verfügt auch über verbesserte allgemeine Fähigkeiten wie das Befolgen von Anweisungen, die Verwendung von Tools, die Textgenerierung und die Ausrichtung auf menschliche Präferenzen, sowie verbessertes Verständnis von langen Kontexten mit 256K. Wichtig ist, dass diese Version standardmäßig im „Denkmodus“ arbeitet und dringend für komplexe Denkaufgaben empfohlen wird.

Mehr lesen
KI

SmolLM3: Ein kleiner, multilingualer, langkontextueller Reasoner

2025-07-09
SmolLM3: Ein kleiner, multilingualer, langkontextueller Reasoner

SmolLM3 ist ein vollständig quelloffenes, multilingualer Sprachmodell mit 3 Milliarden Parametern, das eine überzeugende Balance zwischen Effizienz und Leistung bietet. Es übertrifft Llama-3.2-3B und Qwen2.5-3B in verschiedenen Benchmarks und konkurriert sogar mit größeren 4-Milliarden-Parameter-Modellen. Es unterstützt 6 Sprachen und verfügt über eine Kontextlänge von bis zu 128.000 Tokens sowie eine einzigartige Dual-Mode-Reasoning-Fähigkeit (think/no_think). Über das Modell hinaus veröffentlichen die Forscher den vollständigen Engineering-Blueprint, einschließlich Architekturdetails, Datenmischungen und Trainingsmethodik – eine wertvolle Ressource für alle, die Modelle in dieser Größenordnung bauen oder untersuchen.

Mehr lesen

Nanonets-OCR-s: Über traditionelle OCR hinaus mit intelligenter Dokumentenverarbeitung

2025-06-16
Nanonets-OCR-s: Über traditionelle OCR hinaus mit intelligenter Dokumentenverarbeitung

Nanonets-OCR-s ist ein hochmodernes OCR-Modell von Bild zu Markdown, das die traditionelle Textextraktion übertrifft. Es wandelt Dokumente in strukturiertes Markdown mit intelligenter Inhaltserkennung und semantischer Markierung um, ideal für die nachgelagerte Verarbeitung durch Large Language Models (LLMs). Zu den Hauptfunktionen gehören die Erkennung von LaTeX-Gleichungen, die intelligente Bildbeschreibung, die Signaturerkennung, die Wasserzeichenextraktion, die intelligente Behandlung von Kontrollkästchen und die Extraktion komplexer Tabellen. Das Modell kann über transformers, vLLM oder docext verwendet werden.

Mehr lesen
KI

Penny-1.7B: Ein Sprachmodell im Stil des irischen Penny Journals aus dem 19. Jahrhundert

2025-06-02
Penny-1.7B: Ein Sprachmodell im Stil des irischen Penny Journals aus dem 19. Jahrhundert

Penny-1.7B ist ein kausales Sprachmodell mit 1,7 Milliarden Parametern, das mit Group Relative Policy Optimization (GRPO) feinabgestimmt wurde, um den Prosa-Stil des Irish Penny Journals von 1840 aus dem 19. Jahrhundert nachzuahmen. Ein Belohnungsmodell unterscheidet den Originaltext des Journals von modernen Übersetzungen und maximiert so die Authentizität. Ideal für kreatives Schreiben, Bildungsinhalte oder stilistische Pastische im irisch-englischen Viktorianischen Stil, aber nicht empfohlen für die Überprüfung zeitgenössischer Fakten.

Mehr lesen

Hugging Face startet kostenlosen MCP-Kurs: Ihr Einstieg in das Model Context Protocol

2025-05-21
Hugging Face startet kostenlosen MCP-Kurs: Ihr Einstieg in das Model Context Protocol

Hugging Face hat einen kostenlosen Kurs zum Model Context Protocol (MCP) veröffentlicht, der Lernende von Anfänger zu Experten führt. Der Kurs umfasst Theorie, Design und Praxis von MCP sowie den Aufbau von Anwendungen mit etablierten MCP-SDKs und Frameworks. Teilnehmer erhalten ein Abschlusszertifikat durch Abschluss von Aufgaben und können an Challenges teilnehmen. Der Lehrplan beinhaltet auch Module in Zusammenarbeit mit Hugging Face Partnern, die Zugriff auf neueste MCP-Implementierungen und Tools bieten. Voraussetzungen sind grundlegende Kenntnisse von KI und LLMs, Softwareentwicklungsprinzipien und APIs sowie Erfahrung mit mindestens einer Programmiersprache (Python oder TypeScript Beispiele werden gezeigt).

Mehr lesen
KI

Kritische Analyse: Das Argument gegen vollständig autonome KI-Agenten

2025-02-08
Kritische Analyse: Das Argument gegen vollständig autonome KI-Agenten

Dieser Aufsatz analysiert kritisch das Argument gegen die Entwicklung vollständig autonomer KI-Agenten. Obwohl strukturiert, rigoros und mit der Hervorhebung realer Risiken wie Sicherheitsgefahren und Datenschutzverletzungen, leidet er unter einer zu absoluten Haltung, einer vagen Definition von „vollständig autonom“, einer unausgewogenen Risiko-Nutzen-Analyse und einer unzureichenden Erörterung von Mitigationsstrategien. Er zeigt auch Anzeichen von technologischem Determinismus. Verbesserungen könnten die Abschwächung der absoluten Ablehnung, die Klärung der Definition von Autonomie, das Ausgleichen der Analyse, die Entwicklung von Mitigationsstrategien und die Stärkung der empirischen Basis beinhalten. Letztendlich ist es ein wertvoller Beitrag zur laufenden Diskussion über KI-Ethik, aber keine endgültige Schlussfolgerung.

Mehr lesen
KI

Open-R1: Open-Source-Reproduktion des DeepSeek-R1-Reasoning-Modells

2025-01-28
Open-R1: Open-Source-Reproduktion des DeepSeek-R1-Reasoning-Modells

Die beeindruckenden Reasoning-Fähigkeiten des DeepSeek-R1-Modells haben die KI-Community begeistert, aber die Details zum Training bleiben geheim. Das Open-R1-Projekt zielt darauf ab, DeepSeek-R1 vollständig Open Source zu reproduzieren, einschließlich der Datensätze und der Trainingspipeline. Dies beinhaltet die Destillation eines hochwertigen Reasoning-Datensatzes aus DeepSeek-R1, die Reproduktion des reinen Reinforcement-Learning-Trainingsprozesses und die Erforschung mehrstufiger Trainingsmethoden. Das letztendliche Ziel ist die Erstellung eines transparenten und reproduzierbaren Reasoning-Modells, das die Fortschritte in der Open-Source-Community vorantreibt.

Mehr lesen
KI

Janus-Pro-7B: Ein einheitliches multimodales Verständnis- und Generierungsmodell

2025-01-27
Janus-Pro-7B: Ein einheitliches multimodales Verständnis- und Generierungsmodell

DeepSeek präsentiert Janus-Pro-7B, ein neuartiges autoregressives Framework, das multimodales Verständnis und Generierung vereint. Im Gegensatz zu früheren Ansätzen entkoppelt Janus-Pro intelligent die visuelle Kodierung, wodurch eine effiziente Verarbeitung innerhalb einer einzigen Transformer-Architektur ermöglicht wird. Diese Entkopplung löst nicht nur den Konflikt zwischen den Rollen des visuellen Kodierers bei Verständnis und Generierung, sondern verbessert auch die Flexibilität des Frameworks. Janus-Pro übertrifft frühere einheitliche Modelle und erreicht oder übertrifft die Leistung von aufgabenspezifischen Modellen. Seine Einfachheit, hohe Flexibilität und Effektivität machen es zu einem starken Kandidaten für einheitliche multimodale Modelle der nächsten Generation.

Mehr lesen
KI

DeepSeek-R1: Ein durch Reinforcement Learning trainiertes Reasonierungsmodell und seine destillierten Versionen

2025-01-20
DeepSeek-R1: Ein durch Reinforcement Learning trainiertes Reasonierungsmodell und seine destillierten Versionen

DeepSeek hat seine Reasonierungsmodelle der ersten Generation, DeepSeek-R1, veröffentlicht. Trainiert durch groß angelegtes Reinforcement Learning ohne vorherige überwachte Feinabstimmung, behebt DeepSeek-R1 Probleme wie endlose Wiederholungen und schlechte Lesbarkeit, die im Vorgänger DeepSeek-R1-Zero vorhanden waren, durch die Einbeziehung von Kaltstartdaten vor dem RL. DeepSeek-R1 erreicht eine vergleichbare Leistung zu OpenAI-o1 über verschiedene Benchmarks. Darüber hinaus hat DeepSeek DeepSeek-R1 und sechs destillierte Modelle basierend auf Llama und Qwen open-source veröffentlicht. DeepSeek-R1-Distill-Qwen-32B übertrifft OpenAI-o1-mini in mehreren Benchmarks und erzielt neue State-of-the-Art-Ergebnisse für destillierte Modelle. Diese Modelle, zusammen mit einer benutzerfreundlichen API und einer Chat-Oberfläche, sind auf Hugging Face verfügbar.

Mehr lesen

400x schnellere statische Embedding-Modelle mit Sentence Transformers

2025-01-15
400x schnellere statische Embedding-Modelle mit Sentence Transformers

Dieser Blogbeitrag beschreibt eine Methode zum Trainieren statischer Embedding-Modelle, die auf der CPU um das 100- bis 400-fache schneller laufen als aktuelle State-of-the-Art-Embedding-Modelle, wobei die meiste Qualität erhalten bleibt. Dies erschließt viele spannende Anwendungsfälle, darunter die Ausführung auf Geräten und im Browser, Edge Computing, Low-Power- und Embedded-Anwendungen. Wir wenden dieses Rezept an, um zwei extrem effiziente Embedding-Modelle zu trainieren: sentence-transformers/static-retrieval-mrl-en-v1 für die englische Retrieval und sentence-transformers/static-similarity-mrl-multilingual-v1 für mehrsprachige Ähnlichkeitsaufgaben.

Mehr lesen

ModernBERT: Ein revolutionärer Ersatz für BERT

2024-12-19
ModernBERT: Ein revolutionärer Ersatz für BERT

Answer.AI und LightOn präsentieren ModernBERT, eine Familie hochmoderner Encoder-only-Modelle, die BERT in Geschwindigkeit und Genauigkeit übertreffen. ModernBERT integriert zahlreiche Fortschritte aus der jüngsten LLM-Forschung, mit einer erweiterten Kontextlänge (8192 Token), schnellerer Verarbeitung und überlegener Leistung in verschiedenen Benchmarks. Seine besonders starken Code-Retrieval-Fähigkeiten eröffnen neue Anwendungen wie die groß angelegte Codesuche und verbesserte IDE-Funktionen. ModernBERT ist ein direkter Ersatz für BERT-Modelle und ist auf Hugging Face verfügbar.

Mehr lesen

Hugging Face Spaces führt ZeroGPU ein: Dynamische GPU-Zuweisung für effizientere KI-Modelle

2024-12-15
Hugging Face Spaces führt ZeroGPU ein: Dynamische GPU-Zuweisung für effizientere KI-Modelle

Hugging Face Spaces hat ZeroGPU eingeführt, eine geteilte Infrastruktur, die NVIDIA A100 GPUs dynamisch zuweist, um die GPU-Auslastung für KI-Modelle und Demos zu optimieren. ZeroGPU bietet kostenlosen GPU-Zugriff, Multi-GPU-Unterstützung und senkt die Einstiegshürde für die Bereitstellung von KI-Modellen. Benutzer wählen einfach die ZeroGPU-Hardware bei der Erstellung eines Gradio-Spaces und verwenden den `@spaces.GPU`-Dekorator für GPU-abhängige Funktionen. ZeroGPU ist mit PyTorch kompatibel und für die Hugging Face-Bibliotheken transformers und diffusers optimiert, funktioniert aber derzeit nur mit dem Gradio SDK. Private Konten (PRO-Abonnenten) können maximal 10 ZeroGPU-Spaces erstellen, Organisationskonten (Enterprise Hub) maximal 50.

Mehr lesen