最大化 Llama 能效的最佳点
2024-05-16
本文探讨了在家庭系统中运行大型语言模型 (LLM) Llama 的能效优化问题。作者通过调整GPU功耗限制,找到了最佳的每生成token功耗点,位于每个GPU约225W功耗的位置。这个最佳点不仅能效高,而且接近峰值性能。
阅读更多
46
未分类
能效优化