SeedLM: Un Nuevo Método de Compresión de Pesos LLM usando Generadores de Números Pseudoaleatorios

2025-04-06
SeedLM: Un Nuevo Método de Compresión de Pesos LLM usando Generadores de Números Pseudoaleatorios

Los grandes modelos de lenguaje (LLM) se ven obstaculizados por altos costos de tiempo de ejecución, lo que limita su implementación generalizada. Investigadores de Meta presentan SeedLM, un nuevo método de compresión posterior al entrenamiento que utiliza semillas de un generador de números pseudoaleatorios para codificar y comprimir pesos de modelos. Durante la inferencia, SeedLM utiliza un registro de desplazamiento de retroalimentación lineal (LFSR) para generar eficientemente una matriz aleatoria, combinada linealmente con coeficientes comprimidos para reconstruir bloques de pesos. Esto reduce el acceso a la memoria y aprovecha los ciclos de cómputo inactivos, acelerando las tareas limitadas por memoria al intercambiar cómputo por menos accesos a la memoria. A diferencia de los métodos de vanguardia que requieren datos de calibración, SeedLM no necesita datos y se generaliza bien en diversas tareas. Los experimentos en el desafiante Llama 3 70B muestran una precisión de cero-shot en la compresión de 4 y 3 bits que iguala o supera a los métodos de vanguardia, manteniendo un rendimiento comparable a los benchmarks FP16. Las pruebas de FPGA demuestran que SeedLM de 4 bits se acerca a una aceleración de 4x con respecto a un benchmark FP16 Llama 2/3 a medida que aumenta el tamaño del modelo.

IA