Qwen 2.5 d'Alibaba : un LLM avec un contexte de 1 million de jetons

2025-01-26

Alibaba a publié une mise à jour majeure de son modèle linguistique large open source, Qwen 2.5, avec une fenêtre de contexte impressionnante de 1 million de jetons ! Ceci est réalisé grâce à une nouvelle technique appelée Dual Chunk Attention. Deux modèles sont disponibles sur Hugging Face : des versions 7B et 14B de paramètres, nécessitant toutes deux une VRAM importante – au moins 120 Go pour le modèle 7B et 320 Go pour le modèle 14B. Bien qu'utilisables pour des tâches plus courtes, Alibaba recommande d'utiliser son framework vLLM personnalisé. Des versions quantifiées GGUF émergent, offrant des tailles plus réduites, mais des problèmes de compatibilité avec les longueurs de contexte complètes pourraient exister. Un blogueur a essayé d'exécuter la version GGUF sur un Mac en utilisant Ollama, rencontrant quelques difficultés et promettant une mise à jour future.