SeedLM: 의사 난수 생성기를 사용한 LLM 가중치 압축 방법

2025-04-06
SeedLM: 의사 난수 생성기를 사용한 LLM 가중치 압축 방법

대규모 언어 모델(LLM)은 높은 실행 비용으로 인해 광범위한 배포가 제한됩니다. Meta 연구원들은 의사 난수 생성기의 시드를 사용하여 모델 가중치를 인코딩 및 압축하는 새로운 사후 훈련 압축 방법인 SeedLM을 발표했습니다. 추론 중에 SeedLM은 선형 피드백 시프트 레지스터(LFSR)를 사용하여 효율적으로 난수 행렬을 생성하고, 이를 압축 계수와 선형 결합하여 가중치 블록을 재구성합니다. 이를 통해 메모리 액세스가 줄어들고 유휴 연산 사이클을 활용하여 메모리 제약 작업을 가속화합니다. 보정 데이터에 의존하는 최첨단 방법과 달리 SeedLM은 데이터가 필요 없으며 다양한 작업에서 우수한 일반화 성능을 보여줍니다. 어려운 Llama 3 70B를 사용한 실험에서 4비트 및 3비트 압축에서의 제로샷 정확도는 최첨단 방법과 동등하거나 더 우수하며, FP16 기준선과 동등한 성능을 유지합니다. 또한 FPGA 기반 테스트에서 모델 크기가 증가함에 따라 4비트 SeedLM은 FP16 Llama 2/3 기준선보다 4배 빠른 속도에 도달합니다.

AI