在 RTX4090 上使用 Sequoia 部署大型语言模型

2024-05-05

Sequoia是一个可扩展、鲁棒的硬件感知推测解码框架,能够在消费级GPU上以合理的延迟部署大型语言模型(70B、33B等),而无需任何近似(使用16位精度并保持原始输出分布)。Sequoia 利用动态规划算法搜索最佳树结构,并采用无放回抽样算法,在生成温度方面具有鲁棒性。Sequoia 还可以加速 A100 和 L40 等数据中心 GPU 上的 LLM 推理。

阅读更多