MLC-LLM: Tornando as GPUs AMD competitivas para inferência de LLMs

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

2024-12-24

GPUs da NVIDIA dominaram por muito tempo a área de inferência de modelos de linguagem grandes (LLMs). No entanto, o projeto MLC-LLM usa compilação de aprendizado de máquina para implantar com sucesso LLMs em GPUs AMD, obtendo resultados impressionantes. Usando ROCm e Vulkan, a AMD Radeon RX 7900 XTX atinge 80% da velocidade da NVIDIA RTX 4090 e 94% da RTX 3090 Ti para inferência Llama2-7B/13B. Isso melhora significativamente a competitividade das GPUs AMD e expande as opções de implantação de LLM, incluindo APUs AMD como as encontradas no Steam Deck. Desenvolvimento futuro do MLC-LLM inclui otimizações para processamento em lote, suporte para várias GPUs, quantização e arquiteturas de modelos expandidas, e redução da diferença de desempenho com a NVIDIA, abordando, em última análise, as limitações de computação em IA.