DeepSeek基础设施的性能分析数据公开
2025-02-27
DeepSeek团队公开分享了其训练和推理框架的性能分析数据,以帮助社区更好地理解其通信计算重叠策略和底层实现细节。数据使用PyTorch Profiler捕获,可在Chrome或Edge浏览器中直接可视化。分析数据模拟了绝对平衡的MoE路由策略,涵盖了训练、预填充和解码三个阶段,分别针对不同的参数配置(例如EP64/TP1、EP32/TP1、EP128/TP1)和微批量策略进行了优化,以实现计算和通信的重叠,提高效率。
开发