A Entropia da Saída de Modelos de Linguagem Grandes: Uma Perspectiva da Teoria da Informação
Esta publicação explora a saída de modelos de linguagem grandes (LLMs como o ChatGPT) de uma perspectiva da teoria da informação. O autor calcula a entropia de cada token de saída para medir a certeza do modelo ao prever o próximo token. Experimentos mostram entropia mais baixa (maior certeza) no final das frases ou fragmentos de palavras, e entropia mais alta (mais incerteza) em declarações descritivas. Uma comparação dos tipos de tokens em entropia baixa versus alta revela que a entropia baixa geralmente se correlaciona com declarações factuais (contendo nomes próprios), enquanto a entropia alta se correlaciona com declarações descritivas. Um exemplo em tâmil é usado para ilustração adicional, enfatizando a importância de discernir a verdade da falsidade.
Leia mais