SeedLM: Eine neue Methode zur Komprimierung von LLM-Gewichten mithilfe von Pseudozufallszahlengeneratoren
Große Sprachmodelle (LLMs) sind durch hohe Laufzeitkosten behindert, was ihren breiten Einsatz einschränkt. Forscher von Meta stellen SeedLM vor, eine neue Methode zur Komprimierung nach dem Training, die Seeds eines Pseudozufallszahlengenerators verwendet, um Modellgewichte zu kodieren und zu komprimieren. Während der Inferenz verwendet SeedLM ein lineares Rückkopplungs-Shift-Register (LFSR), um effizient eine Zufallsmatrix zu generieren, die linear mit komprimierten Koeffizienten kombiniert wird, um Gewichtsblöcke zu rekonstruieren. Dies reduziert den Speicherzugriff und nutzt ungenutzte Rezyklen, wodurch speichergebundene Aufgaben beschleunigt werden, indem Rechenleistung gegen weniger Speicherzugriffe eingetauscht wird. Im Gegensatz zu den besten aktuellen Methoden, die Kalibrierungsdaten benötigen, ist SeedLM datenfrei und verallgemeinert gut über verschiedene Aufgaben hinweg. Experimente mit dem herausfordernden Llama 3 70B zeigen eine Zero-Shot-Genauigkeit bei 4- und 3-Bit-Komprimierung, die mit oder besser als die besten aktuellen Methoden ist, während die Leistung mit FP16-Basislinien vergleichbar bleibt. FPGA-Tests zeigen, dass SeedLM mit 4 Bit mit zunehmendem Modellumfang eine 4-fache Beschleunigung gegenüber einer FP16 Llama 2/3-Basislinie erreicht.