MLC-LLM: Haciendo que las GPU de AMD sean competitivas para la inferencia de LLM
Las GPU de NVIDIA han dominado durante mucho tiempo el panorama de la inferencia de modelos de lenguaje grandes (LLM). Sin embargo, el proyecto MLC-LLM aprovecha la compilación de aprendizaje automático para implementar con éxito los LLM en las GPU de AMD, logrando resultados impresionantes. Usando ROCm y Vulkan, la AMD Radeon RX 7900 XTX alcanza el 80% de la velocidad de la NVIDIA RTX 4090 y el 94% de la RTX 3090 Ti para la inferencia Llama2-7B/13B. Esto mejora significativamente la competitividad de las GPU de AMD y amplía las opciones de implementación de LLM, extendiéndose a las APU de AMD como las que se encuentran en el Steam Deck. Los desarrollos futuros para MLC-LLM incluyen optimizaciones para procesamiento por lotes, soporte multi-GPU, cuantización y arquitecturas de modelos expandidas, y una mayor reducción de la brecha de rendimiento con NVIDIA, abordando en última instancia las limitaciones de computación de IA.