현대 LLM 샘플링 완전 초보 가이드
2025-05-04

이 기술 문서는 대규모 언어 모델(LLM)의 텍스트 생성에 사용되는 샘플링 기법에 대한 포괄적인 안내서입니다. 먼저 LLM이 단어나 문자 대신 서브워드 토크나이제이션을 사용하는 이유를 설명하고, 그 다음 온도 샘플링, 페널티 기법(존재, 빈도, 반복, DRY), Top-K, Top-P, Min-P, Top-A, XTC, Top-N-Sigma, 테일 프리 샘플링, 에타 컷오프, 엡실론 컷오프, 지역적으로 전형적인 샘플링, 2차 샘플링, 미로스타트 등 다양한 샘플링 알고리즘을 자세히 설명합니다. 각 알고리즘은 의사 코드와 그림으로 설명되어 있습니다. 마지막으로 샘플링 기법의 순서와 상호 작용에 대해 논의하고, 다른 순서가 최종 출력에 미치는 큰 영향을 강조합니다.