深度探索:为何大型语言模型本地运行缓慢,云端却飞速高效?
2025-06-01
文章探讨了大型语言模型(LLM),特别是混合专家模型(如DeepSeek-V3),在云端服务快速廉价,但在本地运行缓慢昂贵的原因。关键在于批量推理:GPU擅长处理大型矩阵乘法,批量处理多个用户的请求可以显著提高吞吐量,但会增加延迟。混合专家模型和多层模型尤其依赖批量处理以避免流水线阻塞和专家利用率低下的问题。云端服务商通过调整批量大小(收集窗口)来平衡吞吐量和延迟,而本地运行通常只有一个请求,导致GPU利用率极低。OpenAI等公司的高效服务可能源于更优的模型架构、巧妙的推理技巧或更强大的GPU资源。
AI
批量推理