어텐션을 넘어: 효율적인 트랜스포머 아키텍처의 최근 발전
2025-05-23
본 문서는 원래 어텐션 메커니즘을 넘어선 트랜스포머 아키텍처의 몇 가지 주요 발전에 대해 탐구합니다. 이러한 기술은 주로 계산 복잡도와 메모리 요구 사항을 줄이는 데 중점을 둡니다. 예를 들어, 그룹 쿼리 어텐션(GQA)은 키/밸류 투영을 공유하여 메모리 사용량을 줄이고, 다중 헤드 잠재 어텐션(MHA)은 잠재 벡터를 사용하여 계산 복잡성을 줄이며, Flash 어텐션은 지능적인 메모리 관리를 통해 속도를 최적화하고, 링 어텐션(Ring Attention)은 초장 시퀀스 처리를 위해 멀티 GPU 병렬 처리를 사용합니다. 또한, 사전 정규화, RMSNorm, SwiGLU 활성화 함수 및 정규화 방법, 학습률 워밍업, 코사인 스케줄링, 전문가 믹스(MoE), 다중 토큰 예측, 추측적 디코딩 등도 다룹니다. 이러한 기술은 트랜스포머가 더 길고 더 고차원적인 시퀀스를 더 효율적으로 처리할 수 있도록 하여 속도와 성능을 모두 향상시킵니다.
개발