如何评估大型语言模型推理框架的性能

2024-09-07

文章指出,由于内存墙的存在,大型语言模型(LLM)推理框架的性能受到硬件限制。作者建议开发者应选择接近系统内存墙的框架,并关注服务器和离线场景下的高吞吐量。文章还强调了量化和稀疏性优化需谨慎使用,建议使用发布模型的默认格式。最后,文章探讨了突破内存墙的潜在研究方向,例如量化、稀疏性优化、并行解码和推测解码等。

阅读更多
未分类 性能评估

Lamini 推出内存微调技术:大型语言模型准确率达 95%,幻觉减少 10 倍

2024-06-14

Lamini 内存微调技术通过微调数百万个 LoRA 适配器并在推理时在广泛的专家组合中进行选择,从而对任何现有大型语言模型进行微调。它不是优化所有内容的平均误差,而是优化您告诉它记住的特定事实的零误差,因此它几乎可以完美地回忆起这些事实。这种方法之所以特别具有开创性,是因为它保留了大型语言模型对其他所有内容进行平均误差概括的能力,从而能够继续围绕这些事实生成流畅的散文。

阅读更多
未分类 Lamini