BQN 행렬 곱셈 성능 최적화: 캐시 블로킹과 분할 정복

2025-06-27

이 글에서는 BQN 언어를 사용하여 대규모 행렬 곱셈의 성능을 최적화하는 방법을 탐구합니다. 저자는 먼저 간단한 정방형 분할 방법을 사용하여 캐시를 효과적으로 활용함으로써 약 6배의 속도 향상을 달성했습니다. 그런 다음 분할 정복 전략에 기반한 Strassen 알고리즘을 소개하고, 대규모 행렬에 대해 최대 9배의 속도 향상이 실험적으로 입증되었습니다. 이 글에서는 다양한 블록 크기와 중첩 타일링 전략이 성능에 미치는 영향에 대해서도 비교 분석하여 순수한 단일 스레드 BQN 구현으로 달성할 수 있는 성능의 한계에 거의 도달했다는 결론을 내렸습니다.

개발