Alibabas Qwen 2.5: Ein LLM mit 1 Million Token Kontextlänge
Alibaba hat ein wichtiges Update für sein Open-Source Large Language Model Qwen 2.5 veröffentlicht, das ein beeindruckendes Kontextfenster von 1 Million Token bietet! Dies wird durch eine neue Technik namens Dual Chunk Attention erreicht. Zwei Modelle sind auf Hugging Face verfügbar: 7B und 14B Parameterversionen, die beide viel VRAM benötigen – mindestens 120 GB für das 7B-Modell und 320 GB für das 14B-Modell. Obwohl sie für kürzere Aufgaben verwendet werden können, empfiehlt Alibaba die Verwendung seines benutzerdefinierten vLLM-Frameworks. GGUF-quantisierte Versionen erscheinen, die kleinere Größen bieten, aber Kompatibilitätsprobleme mit vollständigen Kontextlängen könnten bestehen. Ein Blogger hat versucht, die GGUF-Version mit Ollama auf einem Mac auszuführen, wobei einige Herausforderungen auftraten und ein zukünftiges Update versprochen wurde.