AI 생성 CUDA 커널이 PyTorch를 능가하다?
2025-05-30
연구원들은 대규모 언어 모델과 새로운 분기 검색 전략을 사용하여 CUTLASS나 Triton과 같은 라이브러리에 의존하지 않고 순수한 CUDA-C 커널을 자동으로 생성했습니다. 놀랍게도 이러한 AI 생성 커널은 경우에 따라 PyTorch의 전문가가 최적화한 프로덕션 커널의 성능을 능가하여 Conv2D 연산에서 거의 2배의 속도 향상을 달성했습니다. 이 방법은 최적화 전략에 대한 자연어 추론과 분기 검색을 통한 병렬 탐색을 활용하여 국소적 최적점을 효과적으로 피합니다. FP16 행렬 곱셈과 Flash Attention의 성능은 여전히 개선의 여지가 있지만, 이 연구는 고성능 커널 자동 생성 분야에서 새로운 지평을 열고 컴파일러 최적화에서 AI의 엄청난 잠재력을 시사합니다.
더 보기
AI
커널 생성