CUDAベースのレイ トレーサーがVulkan/RTXを3倍上回る性能

2025-06-26
CUDAベースのレイ トレーサーがVulkan/RTXを3倍上回る性能

この記事では、同一ハードウェア上でVulkan/RTX実装を3倍以上上回る性能を持つCUDAベースのレイ トレーサーを作成した過程を説明します。ナイーブなCUDAポートから開始し、再帰、レジスタ圧力、メモリレイアウト、分岐の非効率性といった問題に対処することで、レンダラーを体系的に最適化しました。明示的なスタック、構造体配列、早期レイ終了、ロシアルーレットといった手法を用いることで、フレーム時間を2.5秒から9ミリ秒に短縮しました。この記事では、CUDAのパフォーマンスボトルネックを深く掘り下げ、実践的な最適化戦略を提供します。ベンチマークは、RTX 3080での大幅なパフォーマンス向上を示しています。

開発