Conquistando el No Determinismo en la Inferencia de LLMs
La irreproducibilidad de los resultados de inferencia de los modelos de lenguaje grandes (LLMs) es un problema persistente. Esta publicación profundiza en la causa raíz, revelando que no se trata simplemente de la no asociatividad de punto flotante y la ejecución concurrente, sino de la falta de "invariabilidad de lote" en las implementaciones del kernel. Incluso si los kernels individuales son deterministas, las variaciones no deterministas en el tamaño del lote (debido a la carga del servidor) afectan la salida final. Los autores analizan los desafíos de lograr la invariabilidad de lote en RMSNorm, la multiplicación de matrices y los mecanismos de atención, proponiendo un método para eliminar el no determinismo mediante la modificación de las implementaciones del kernel. Esto conduce a una inferencia de LLM totalmente reproducible e impactos positivos en el entrenamiento de aprendizaje por refuerzo.