Webtagr - 科技资讯摘要

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

2:4稀疏Llama：用于高效GPU推理的更小模型

2024-12-02

本文介绍了Sparse Llama 3.1 8B，这是一个基于Meta Llama 3.1 8B构建的稀疏大型语言模型。该模型采用2:4稀疏模式，移除50%的参数，同时保持98%的Open LLM Leaderboard v1准确率和在微调任务（数学、代码和聊天）中的完全准确率恢复。与vLLM结合使用时，稀疏性可带来高达30%的吞吐量提升和1.8倍的延迟降低。该模型还与4位量化方法兼容，可进一步提升推理速度。Sparse Llama 3.1是开源的，旨在推动高效、可扩展的AI发展。

(neuralmagic.com)

未分类稀疏化 GPU推理