Alibabas Qwen 2.5: Ein LLM mit 1 Million Token Kontextlänge

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

Alibabas Qwen 2.5: Ein LLM mit 1 Million Token Kontextlänge

2025-01-26

Alibaba hat ein wichtiges Update für sein Open-Source Large Language Model Qwen 2.5 veröffentlicht, das ein beeindruckendes Kontextfenster von 1 Million Token bietet! Dies wird durch eine neue Technik namens Dual Chunk Attention erreicht. Zwei Modelle sind auf Hugging Face verfügbar: 7B und 14B Parameterversionen, die beide viel VRAM benötigen – mindestens 120 GB für das 7B-Modell und 320 GB für das 14B-Modell. Obwohl sie für kürzere Aufgaben verwendet werden können, empfiehlt Alibaba die Verwendung seines benutzerdefinierten vLLM-Frameworks. GGUF-quantisierte Versionen erscheinen, die kleinere Größen bieten, aber Kompatibilitätsprobleme mit vollständigen Kontextlängen könnten bestehen. Ein Blogger hat versucht, die GGUF-Version mit Ollama auf einem Mac auszuführen, wobei einige Herausforderungen auftraten und ein zukünftiges Update versprochen wurde.

(simonwillison.net)

KI Kontextlänge von einer Million Token

Orange Intelligence: Open-Source-Produktivitätstool für macOS, das Apples Lösung übertrifft

Kubernetes Controller Entwicklung: Fallstricke und Best Practices