O Tamanho Cada Vez Maior dos Modelos de Linguagem Grandes

2025-07-02
O Tamanho Cada Vez Maior dos Modelos de Linguagem Grandes

Este artigo traça a evolução do tamanho dos modelos de linguagem grandes (LLMs). De 1,61B de parâmetros do GPT-2 a 2T de parâmetros do Llama-4, o tamanho do modelo cresceu exponencialmente. O artigo detalha as contagens de parâmetros, os tamanhos dos dados de treinamento e os recursos arquitetônicos de modelos-chave, incluindo modelos densos e modelos Mixture-of-Experts (MoE). O surgimento de arquiteturas MoE tornou possível treinar e usar modelos de maior escala. No entanto, o crescimento no tamanho do modelo também trouxe novos desafios, como viés de dados e interpretabilidade do modelo. O artigo conclui explorando as direções futuras do desenvolvimento de LLM e clama por mais pesquisas para se concentrar no desenvolvimento de mecanismos puros de continuação de texto, em vez de simplesmente buscar pontuações altas em testes de benchmark.