MLC-LLM: Tornando as GPUs AMD competitivas para inferência de LLMs
GPUs da NVIDIA dominaram por muito tempo a área de inferência de modelos de linguagem grandes (LLMs). No entanto, o projeto MLC-LLM usa compilação de aprendizado de máquina para implantar com sucesso LLMs em GPUs AMD, obtendo resultados impressionantes. Usando ROCm e Vulkan, a AMD Radeon RX 7900 XTX atinge 80% da velocidade da NVIDIA RTX 4090 e 94% da RTX 3090 Ti para inferência Llama2-7B/13B. Isso melhora significativamente a competitividade das GPUs AMD e expande as opções de implantação de LLM, incluindo APUs AMD como as encontradas no Steam Deck. Desenvolvimento futuro do MLC-LLM inclui otimizações para processamento em lote, suporte para várias GPUs, quantização e arquiteturas de modelos expandidas, e redução da diferença de desempenho com a NVIDIA, abordando, em última análise, as limitações de computação em IA.