Qwen2.5-1M: Open-Source LLMs mit Kontextlänge bis zu 1 Million Token
2025-01-26
Das Qwen-Team hat Qwen2.5-1M veröffentlicht, Open-Source Large Language Models, die bis zu einer Million Token Kontextlänge unterstützen, in 7B und 14B Parameterversionen. Diese Modelle übertreffen ihre 128K-Pendants bei Langkontext-Aufgaben deutlich und überragen in einigen Fällen sogar GPT-4o-mini. Ein Open-Source-Inferenz-Framework basierend auf vLLM, das Sparse Attention für eine 3x bis 7x schnellere Inferenz nutzt, wird ebenfalls zur effizienten Bereitstellung bereitgestellt. Das Training von Qwen2.5-1M verwendete einen progressiven Ansatz, der Dual Chunk Attention (DCA) und Sparse Attention-Techniken zur effektiven Verarbeitung langer Kontexte integriert.