TScale:家用级大模型训练框架

2025-05-04
TScale:家用级大模型训练框架

TScale是一个用C++和CUDA编写的变压器模型训练和推理框架,旨在在消费级硬件上运行大型语言模型(LLM)。它通过优化的架构、低精度计算(fp8和int8)、CPU卸载、同步和异步分布式训练等技术,显著降低了训练成本和时间。即使是1T参数规模的模型,通过巧妙的索引技术,TScale也能在普通家用电脑上进行训练,展现了其在降低LLM训练门槛方面的巨大潜力。