Guia para Leigos sobre Amostragem de LLMs Modernos

Este artigo técnico oferece um guia abrangente sobre os métodos de amostragem usados na geração de texto por Modelos de Linguagem Ampla (LLM). Começa explicando por que LLMs usam tokenização de subpalavras em vez de palavras ou letras, e depois aprofunda em vários algoritmos de amostragem, incluindo amostragem de temperatura, métodos de penalidade (Presença, Frequência, Repetição, DRY), Top-K, Top-P, Min-P, Top-A, XTC, Top-N-Sigma, Amostragem Sem Cauda, Corte Eta, Corte Epsilon, Amostragem Tipicamente Local, Amostragem Quadrática e Mirostat. Cada algoritmo é explicado com pseudocódigo e ilustrações. Finalmente, discute a ordem dos métodos de amostragem e suas interações, destacando o impacto significativo da ordem diferente na saída final.