为了应对生成式AI对算力需求的指数级增长,Meta 对其软硬件和网络基础设施进行了重构,包括提高硬件可靠性和快速恢复能力、优化GPU间的连接、改进训练软件和调度效率、选择合适的硬件配置、优化数据中心部署和网络架构、采用高效的数据存储方案等,并详细介绍了在RoCE和InfiniBand网络技术上的探索以及网络、存储等方面的优化经验。