Webtagr - Technologienummer

Ollama Turbo: Blitzschnelle Ausführung von Open-Source-LLMs

2025-08-06

Ollama Turbo ist eine neue Methode, um große Open-Source-Sprachmodelle mit Rechenzentrum-Hardware auszuführen. Viele neue Modelle sind zu groß für gängige GPUs oder laufen zu langsam. Ollama Turbo bietet eine Lösung für schnelle Ausführung, kompatibel mit Ollamas App, CLI und API. Derzeit in der Vorschau verfügbar, unterstützt es die Modelle gpt-oss-20b und gpt-oss-120b. Es funktioniert mit Ollamas CLI, API und JavaScript/Python-Bibliotheken. Wichtig ist, dass Ollama keine Anfragen im Turbo-Modus protokolliert oder speichert. Die gesamte Hardware befindet sich in den USA. Es gibt Nutzungsbeschränkungen (stündlich und täglich), um Kapazitätsprobleme zu vermeiden, wobei eine nutzungsbasierte Preisgestaltung in Kürze verfügbar sein wird.

(ollama.com)

KI

Ollama veröffentlicht Desktop-App für einfachere LLM-Interaktion

2025-07-31

Ollama hat eine neue Desktop-Anwendung für macOS und Windows veröffentlicht, die eine einfachere Interaktion mit großen Sprachmodellen ermöglicht. Die App unterstützt Drag-and-Drop von Dateien (Text oder PDF), was die Dokumentenverarbeitung erleichtert. Benutzer können die Kontextlänge in den Einstellungen für größere Dokumente erhöhen (erfordert mehr Speicher). Multimodale Unterstützung ermöglicht das Senden von Bildern an kompatible Modelle wie Google DeepMinds Gemma 3, und Code-Dateien können zur Analyse verarbeitet werden. Eine Befehlszeilenversion ist ebenfalls verfügbar.

(ollama.com)

Entwicklung Desktop-App

Ollamas neue Multimodale Engine: Lokale Inferenz für visuelle Modelle

2025-05-16

Ollama hat eine neue Engine veröffentlicht, die lokale Inferenz für multimodale Modelle unterstützt, beginnend mit visuellen Modellen wie Llama 4 Scout und Gemma 3. Sie behebt die Einschränkungen der ggml-Bibliothek für multimodale Modelle, indem sie die Modularität des Modells, die Genauigkeit und die Speicherverwaltung für eine zuverlässige und effiziente Inferenz mit großen Bildern und komplexen Architekturen (einschließlich Mixture-of-Experts-Modellen) verbessert. Der Fokus auf Genauigkeit und Zuverlässigkeit legt den Grundstein für die zukünftige Unterstützung von Sprache, Bildgenerierung und längeren Kontexten.

(ollama.com)

KI lokale Inferenz

Googles Gemma: Eine Familie leichter multimodaler Modelle

2025-03-12

Google hat Gemma vorgestellt, eine leichtgewichtige Familie multimodaler Modelle, die auf der Gemini-Technologie basieren. Die Gemma 3-Modelle verarbeiten Text und Bilder, verfügen über ein Kontextfenster von 128 K und unterstützen über 140 Sprachen. Erhältlich in Größen von 1B, 4B, 12B und 27B Parametern, zeichnen sie sich in Aufgaben wie Fragenbeantwortung, Zusammenfassung und Schlussfolgerung aus, während ihr kompaktes Design den Einsatz auf Geräten mit begrenzten Ressourcen ermöglicht. Benchmark-Ergebnisse zeigen eine starke Leistung in verschiedenen Aufgaben, insbesondere bei mehrsprachigen und multimodalen Fähigkeiten.

(ollama.com)

KI Leichtgewichtiges Modell

DeepSeek-R1: Eine Familie von Reasonierungsmodellen, die mit OpenAI-o1 mithalten können

2025-01-21

DeepSeek hat seine erste Generation von Reasonierungsmodellen, DeepSeek-R1, veröffentlicht, die eine vergleichbare Leistung wie OpenAI-o1 zeigen. Die Serie umfasst Modelle mit einer Größe von 1,5B bis 70B Parametern, die einfach über Ollama ausgeführt werden können. DeepSeek-R1 zeichnet sich durch hervorragende Leistungen in Mathematik, Code und Reasonierungsaufgaben aus und stellt einen bedeutenden Wettbewerber in der KI-Landschaft dar.

(ollama.com)

KI Reasonierungsmodell

Microsoft veröffentlicht Phi-4: Ein Open-Source Sprachmodell mit 14 Milliarden Parametern

2025-01-12

Microsoft hat Phi-4 vorgestellt, ein neues Open-Source Sprachmodell mit 14 Milliarden Parametern. Es basiert auf einer Mischung aus synthetischen Daten, gefilterten Daten von öffentlich zugänglichen Webseiten, akademischen Büchern und Frage-Antwort-Datensätzen. Phi-4 wurde einem strengen Verbesserungsprozess unterzogen, der sowohl überwachtes Feintuning als auch direkte Präferenzoptimierung beinhaltet, um präzise Anweisungsbefolgung und robuste Sicherheitsmaßnahmen zu gewährleisten. Mit einer Kontextlänge von 16k Token ist es für allgemeine KI-Systeme und -Anwendungen (hauptsächlich auf Englisch) konzipiert, die ressourcenbeschränkte Umgebungen (Speicher/Rechenleistung), geringe Latenzzeiten und starke Fähigkeiten in Bezug auf Argumentation und Logik benötigen. Microsoft betont, dass Entwickler die üblichen Einschränkungen von Sprachmodellen berücksichtigen und Genauigkeit, Sicherheit und Fairness bewerten und mindern sollten, insbesondere bei risikoreichen Anwendungen.

(ollama.com)

KI