MLC-LLM: Haciendo que las GPU de AMD sean competitivas para la inferencia de LLM

2024-12-24

Las GPU de NVIDIA han dominado durante mucho tiempo el panorama de la inferencia de modelos de lenguaje grandes (LLM). Sin embargo, el proyecto MLC-LLM aprovecha la compilación de aprendizaje automático para implementar con éxito los LLM en las GPU de AMD, logrando resultados impresionantes. Usando ROCm y Vulkan, la AMD Radeon RX 7900 XTX alcanza el 80% de la velocidad de la NVIDIA RTX 4090 y el 94% de la RTX 3090 Ti para la inferencia Llama2-7B/13B. Esto mejora significativamente la competitividad de las GPU de AMD y amplía las opciones de implementación de LLM, extendiéndose a las APU de AMD como las que se encuentran en el Steam Deck. Los desarrollos futuros para MLC-LLM incluyen optimizaciones para procesamiento por lotes, soporte multi-GPU, cuantización y arquitecturas de modelos expandidas, y una mayor reducción de la brecha de rendimiento con NVIDIA, abordando en última instancia las limitaciones de computación de IA.

Leer más