TScale: 소비자 하드웨어에서의 LLM 학습

2025-05-04
TScale: 소비자 하드웨어에서의 LLM 학습

TScale은 C++ 및 CUDA로 작성된 트랜스포머 모델 학습 및 추론 프레임워크로, 소비자급 하드웨어에서 실행되도록 설계되었습니다. 최적화된 아키텍처, 저정밀도 계산(fp8 및 int8), CPU 오프로딩, 동기 및 비동기 분산 학습을 통해 학습 비용과 시간을 크게 줄입니다. 정교한 색인 기술을 통해 1T 매개변수 규모의 모델도 일반 가정용 컴퓨터에서 학습할 수 있으며, LLM 학습 진입 장벽을 낮추는 큰 잠재력을 보여줍니다.