MLC-LLM:让AMD显卡也能高效运行大型语言模型

2024-12-24

在大型语言模型(LLM)推理领域,英伟达GPU长期占据主导地位。但MLC-LLM项目通过机器学习编译技术,成功将LLM部署到AMD GPU上,并取得了令人瞩目的成绩。利用ROCm和Vulkan技术,AMD Radeon RX 7900 XTX在Llama2-7B/13B模型推理速度上分别达到NVIDIA RTX 4090的80%和RTX 3090 Ti的94%。该项目不仅提升了AMD GPU的竞争力,也为LLM部署提供了更广泛的硬件选择,例如Steam Deck上的AMD APU。未来,MLC-LLM将继续优化,支持批量处理、多GPU以及更多量化和模型架构,进一步缩小与英伟达的差距,解决AI算力瓶颈问题。