El Tamaño Cada Vez Mayor de los Modelos de Lenguaje Grandes
Este artículo rastrea la evolución del tamaño de los modelos de lenguaje grandes (LLM). Desde los 1.61B de parámetros del GPT-2 hasta los 2T de parámetros del Llama-4, el tamaño del modelo ha crecido exponencialmente. El artículo detalla los conteos de parámetros, los tamaños de los datos de entrenamiento y las características arquitectónicas de los modelos clave, incluidos los modelos densos y los modelos Mixture-of-Experts (MoE). El surgimiento de las arquitecturas MoE ha hecho posible entrenar y usar modelos de mayor escala. Sin embargo, el crecimiento en el tamaño del modelo también ha traído nuevos desafíos, como el sesgo de datos y la interpretabilidad del modelo. El artículo concluye explorando las direcciones futuras del desarrollo de LLM y aboga por más investigaciones para concentrarse en el desarrollo de motores puros de continuación de texto, en lugar de simplemente buscar puntuaciones altas en las pruebas de evaluación comparativa.