Thrust를 사용한 GPU 기반 초고속 피보나치 수열 계산

2025-06-27
Thrust를 사용한 GPU 기반 초고속 피보나치 수열 계산

이 블로그 게시글에서는 GPU 프로그래밍과 NVIDIA Thrust 라이브러리를 사용하여 매우 빠르게 피보나치 수열을 계산하는 방법을 보여줍니다. 먼저 스캔 알고리즘을 설명하고, 그 다음 Thrust에서 간단한 덧셈과 곱셈을 수행하는 스캔 연산과 이를 행렬 연산으로 확장하는 방법을 보여줍니다. 마지막으로 행렬 연산과 스캔 연산을 사용하여 피보나치 수열을 효율적으로 계산하는 방법을 보여주고, 나머지 연산을 사용하여 정수 오버플로우를 방지합니다. 저자는 NVIDIA GeForce RTX 3060 Mobile GPU에서 F99999999 (mod 9837)을 단 17밀리초 만에 계산했습니다.

더 보기

Mojo를 사용한 고효율 행렬 전치: CUDA 뛰어넘기?

2025-06-06
Mojo를 사용한 고효율 행렬 전치: CUDA 뛰어넘기?

이 블로그 게시물에서는 Mojo를 사용하여 Hopper 아키텍처에서 고효율 행렬 전치 커널을 구현하는 방법을 자세히 설명합니다. 저자는 단순한 방법부터 시작하여 2775.49 GB/s의 대역폭을 달성하는 커널에 이르기까지 최적화 과정을 단계별로 보여줍니다. 이는 동등한 CUDA 구현과 경쟁하고 경우에 따라 능가할 수 있습니다. 최적화에는 TMA(텐서 맵 액세스) 디스크립터 사용, 공유 메모리 최적화, 데이터 스위즐링, 스레드 조정 등이 포함됩니다. 이 게시물에서는 각 기법의 구현 세부 정보와 성능 향상에 대해 심층적으로 다루고 완벽한 코드 예제를 제공합니다.

더 보기
개발 행렬 전치