Cálculo de Fibonacci extremamente rápido na GPU com Thrust

2025-06-27
Cálculo de Fibonacci extremamente rápido na GPU com Thrust

Esta postagem de blog demonstra como realizar cálculos de sequência de Fibonacci incrivelmente rápidos usando programação de GPU e a biblioteca NVIDIA Thrust. Começa explicando o algoritmo de varredura, depois mostra como usar operações de varredura no Thrust para adição e multiplicação simples, estendendo isso para operações de matriz. Finalmente, ilustra o cálculo de números de Fibonacci de forma eficiente por meio de operações de matriz e a operação de varredura, usando aritmética modular para evitar estouro de inteiro. O autor calcula F99999999 (mod 9837) em apenas 17 milissegundos em uma GPU NVIDIA GeForce RTX 3060 Mobile.

Leia mais

Transposição de Matriz Altamente Eficiente em Mojo: Superando a CUDA?

2025-06-06
Transposição de Matriz Altamente Eficiente em Mojo: Superando a CUDA?

Esta postagem de blog detalha como implementar um kernel de transposição de matriz altamente eficiente na arquitetura Hopper usando Mojo. O autor descreve as otimizações, começando com uma abordagem ingênua e culminando em um kernel que atinge 2775,49 GB/s de largura de banda — competitivo com, e potencialmente superior a, implementações equivalentes da CUDA. As otimizações incluem o uso de descritores TMA (Tensor Map Access), otimizações de memória compartilhada, swizzling de dados e refinamento de threads. A postagem mergulha nos detalhes de implementação e nos ganhos de desempenho de cada técnica, fornecendo exemplos de código completos.

Leia mais
Desenvolvimento Transposição de Matriz