2:4稀疏Llama:用于高效GPU推理的更小模型
2024-12-02
本文介绍了Sparse Llama 3.1 8B,这是一个基于Meta Llama 3.1 8B构建的稀疏大型语言模型。该模型采用2:4稀疏模式,移除50%的参数,同时保持98%的Open LLM Leaderboard v1准确率和在微调任务(数学、代码和聊天)中的完全准确率恢复。与vLLM结合使用时,稀疏性可带来高达30%的吞吐量提升和1.8倍的延迟降低。该模型还与4位量化方法兼容,可进一步提升推理速度。Sparse Llama 3.1是开源的,旨在推动高效、可扩展的AI发展。
阅读更多
8