SeedLM: Um Novo Método de Compressão de Pesos LLM Usando Geradores de Números Pseudo-Aleatórios

2025-04-06
SeedLM: Um Novo Método de Compressão de Pesos LLM Usando Geradores de Números Pseudo-Aleatórios

Os grandes modelos de linguagem (LLMs) são prejudicados por altos custos de tempo de execução, limitando sua implantação generalizada. Pesquisadores do Meta introduzem o SeedLM, um novo método de compressão pós-treinamento que usa sementes de um gerador de números pseudo-aleatórios para codificar e comprimir pesos de modelos. Durante a inferência, o SeedLM usa um Registro de Deslocamento de Realimentação Linear (LFSR) para gerar eficientemente uma matriz aleatória, combinada linearmente com coeficientes comprimidos para reconstruir blocos de pesos. Isso reduz o acesso à memória e aproveita ciclos de computação ociosos, acelerando tarefas limitadas por memória trocando computação por menos acessos à memória. Ao contrário dos métodos de última geração que exigem dados de calibração, o SeedLM não precisa de dados e generaliza bem em diversas tarefas. Experimentos no desafiador Llama 3 70B mostram precisão de zero-shot em compressão de 4 e 3 bits igualando ou excedendo os métodos de última geração, mantendo desempenho comparável aos benchmarks FP16. Testes em FPGA demonstram que o SeedLM de 4 bits se aproxima de uma aceleração de 4x em relação a um benchmark FP16 Llama 2/3 à medida que o tamanho do modelo aumenta.

IA