本文探讨了在家庭系统中运行大型语言模型 (LLM) Llama 的能效优化问题。作者通过调整GPU功耗限制,找到了最佳的每生成token功耗点,位于每个GPU约225W功耗的位置。这个最佳点不仅能效高,而且接近峰值性能。