CUDA 기반 광선 추적기, Vulkan/RTX 성능 3배 상회
2025-06-26
이 글에서는 동일한 하드웨어에서 Vulkan/RTX 구현보다 최대 3배 이상 빠른 성능을 보이는 CUDA 기반 광선 추적기를 만든 과정을 자세히 설명합니다. 단순한 CUDA 포팅으로 시작하여 재귀, 레지스터 압력, 메모리 레이아웃, 분기 비효율성 등의 문제를 체계적으로 해결하여 렌더러를 최적화했습니다. 명시적 스택, 구조체 배열, 조기 광선 종료, 러시안 룰렛 등의 기법을 사용하여 프레임 시간을 2.5초에서 9밀리초로 단축했습니다. 이 글에서는 CUDA 성능 병목 현상을 심층적으로 분석하고 실용적인 최적화 전략을 제시합니다. 벤치마크 결과는 RTX 3080에서 상당한 성능 향상을 보여줍니다.
더 보기
개발