SeedLM : Une nouvelle méthode de compression des poids LLM utilisant des générateurs de nombres pseudo-aléatoires
Les grands modèles de langage (LLM) sont entravés par des coûts d'exécution élevés, limitant leur déploiement généralisé. Des chercheurs de Meta présentent SeedLM, une nouvelle méthode de compression post-entraînement utilisant des graines d'un générateur de nombres pseudo-aléatoires pour coder et compresser les poids des modèles. Pendant l'inférence, SeedLM utilise un registre à décalage à rétroaction linéaire (LFSR) pour générer efficacement une matrice aléatoire, combinée linéairement avec des coefficients compressés pour reconstruire des blocs de poids. Cela réduit l'accès à la mémoire et exploite les cycles de calcul inactifs, accélérant les tâches liées à la mémoire en échangeant du calcul contre moins d'accès à la mémoire. Contrairement aux méthodes de pointe qui nécessitent des données d'étalonnage, SeedLM est sans données et se généralise bien à diverses tâches. Des expériences sur le modèle Llama 3 70B, particulièrement difficile, montrent une précision zéro-shot à 4 et 3 bits de compression égale ou supérieure aux méthodes de pointe, tout en maintenant des performances comparables aux références FP16. Des tests FPGA montrent que SeedLM à 4 bits approche une accélération de 4x par rapport à une référence FP16 Llama 2/3 lorsque la taille du modèle augmente.