Condor apresenta Cuzco: Um núcleo RISC-V de alto desempenho com uma abordagem inovadora

2025-08-30
Condor apresenta Cuzco: Um núcleo RISC-V de alto desempenho com uma abordagem inovadora

A Condor Computing, subsidiária da Andes Technology, revelou seu núcleo RISC-V de alto desempenho, Cuzco, na Hot Chips 2025. O Cuzco possui um mecanismo de execução fora de ordem de 8 vias, um preditor de desvios moderno e um esquema de agendamento baseado em tempo inovador, colocando-o no mesmo nível que o P870 da SiFive e o V1 da Veyron. Sua abordagem única utiliza principalmente o agendamento estático no back-end para eficiência de energia e complexidade reduzida, não exigindo alterações de ISA ou ajustes do compilador para desempenho ideal. O Cuzco é altamente configurável, permitindo personalização para atender às diversas necessidades dos clientes e suporta clusters multinúcleo.

Leia mais
Hardware

Resfriamento a líquido em escala de data center do Google: uma revolução para IA

2025-08-26
Resfriamento a líquido em escala de data center do Google: uma revolução para IA

A ascensão da IA criou um desafio significativo de calor para data centers. No Hot Chips 2025, o Google apresentou seu sistema massivo de resfriamento a líquido projetado para suas TPUs. Este sistema usa CDUs (Unidades de Distribuição de Refrigerante) para resfriamento em nível de rack, reduzindo significativamente o consumo de energia em comparação com o resfriamento a ar e garantindo a estabilidade do sistema por meio de redundância. O Google também emprega um design de matriz nua, semelhante ao 'de-lidding' de entusiastas de PC, para melhorar a eficiência de transferência de calor de sua TPUv4. Essa solução não apenas aborda as imensas demandas de resfriamento da IA, mas também aponta para uma nova direção para futuras soluções de resfriamento de data centers.

Leia mais

Intel Lion Cove: Uma análise profunda do desempenho em jogos

2025-07-07
Intel Lion Cove: Uma análise profunda do desempenho em jogos

A mais recente arquitetura de CPU de alto desempenho da Intel, Lion Cove, se destaca nos benchmarks SPEC CPU2017 e até mesmo rivaliza com o AMD Zen 5. No entanto, as cargas de trabalho de jogos diferem significativamente das tarefas de produtividade. Este artigo mergulha profundamente no desempenho do Lion Cove em jogos, analisando dados detalhados sobre a hierarquia de cache, latência de execução de instruções, previsão de desvios e muito mais. Ele revela os pontos fortes e fracos do Lion Cove em cenários de jogos e o compara ao Zen 4. Os resultados mostram um front-end forte, mas um gargalo na latência de memória de back-end, deixando espaço para melhorias no desempenho de jogos.

Leia mais

Nvidia Blackwell: Um Colossus de Computação, Mas a Que Custo?

2025-06-29
Nvidia Blackwell: Um Colossus de Computação, Mas a Que Custo?

A mais recente arquitetura Blackwell da Nvidia, exemplificada pela RTX PRO 6000, ostenta um gigantesco chip GB202 (750mm², 92,2 bilhões de transistores) e impressionantes 188 unidades SM, oferecendo desempenho de computação incomparável. Uma análise aprofundada de sua microarquitetura revela detalhes sobre o cache de instruções, unidades de execução e subsistemas de memória, comparando-o com a arquitetura RDNA4 da AMD. Embora a Blackwell apresente algumas imperfeições, como o desempenho do cache L2 e a eficiência por unidade, sua escala pura supera a concorrência, tornando-a a maior GPU para consumidor disponível. Essa ambição, no entanto, tem um custo, incluindo consumo de energia (600W) e latência do L2. O artigo conclui com uma perspectiva sobre o cenário futuro da GPU.

Leia mais
Hardware

Imersão no AMD Instinct MI350: Acelerador de IA baseado em GCN

2025-06-20
Imersão no AMD Instinct MI350: Acelerador de IA baseado em GCN

Em uma entrevista, Alan Smith, arquiteto-chefe do Instinct da AMD, mergulhou nos detalhes dos novos aceleradores de IA da série MI350, baseados na arquitetura GFX9. Embora o MI350 retenha a arquitetura GFX9, melhorias significativas de desempenho são alcançadas por meio do aumento da capacidade do LDS (160 KB) e da largura de banda, juntamente com a introdução de formatos de microescala que suportam tipos de dados FP8, FP6 e FP4. Notavelmente, o FP6 e o FP4 do MI350 possuem a mesma taxa de transferência, refletindo a confiança da AMD no potencial do FP6 para treinamento e inferência. Além disso, o MI350 omite a aceleração de hardware TF32 em favor do BF16 otimizado, oferecendo emulação de software para suporte TF32. Construído com chips de computação de processo N3P e chips de E/S de processo N6, o MI350 otimiza o design e reduz as unidades de computação para atingir alto desempenho ao mesmo tempo em que reduz o consumo de energia.

Leia mais
Hardware

Arquitetura AMD CDNA 4: Equilibrando Operações de Matriz e Vetor

2025-06-17
Arquitetura AMD CDNA 4: Equilibrando Operações de Matriz e Vetor

A AMD apresenta sua mais recente arquitetura de GPU orientada para computação, CDNA 4, uma atualização modesta em relação à CDNA 3. O foco é aumentar o desempenho da multiplicação de matrizes com tipos de dados de baixa precisão, cruciais para aprendizado de máquina. Simultaneamente, a CDNA 4 visa manter a liderança da AMD em operações vetoriais. Usando um design multi-chiplet semelhante ao da CDNA 3 e aumentando as velocidades de clock, a CDNA 4 melhora a capacidade e a largura de banda do Compartilhamento de Dados Local (LDS), introduzindo instruções LDS de leitura com transposição para otimizar a multiplicação de matrizes. Embora esteja atrás da arquitetura Blackwell da Nvidia em operações de matriz de baixa precisão, a CDNA 4 mantém uma vantagem significativa em operações vetoriais e tipos de dados de alta precisão devido ao seu maior número de núcleos e velocidades de clock.

Leia mais
Hardware

O Interconecto Compromissado do AMD Trinity: Uma Década de Integração de iGPU

2025-06-17
O Interconecto Compromissado do AMD Trinity: Uma Década de Integração de iGPU

Este artigo mergulha na arquitetura de interconexão de memória da APU AMD Trinity (lançada em 2012). Ao contrário do Infinity Fabric posterior, a Trinity usa dois links distintos, "Onion" e "Garlic", para conectar a CPU e a iGPU. "Onion" garante coerência de cache, mas é limitado em largura de banda, enquanto "Garlic" oferece alta largura de banda, mas sem coerência. Este design reflete um compromisso baseado na arquitetura Athlon 64 da época, resultando em penalidades de desempenho quando a CPU e a GPU acessam a memória uma da outra. Embora tenha um desempenho adequado para cargas de trabalho gráficas como jogos, a arquitetura da Trinity carece da elegância e eficiência das iGPUs integradas Intel Sandy Bridge/Ivy Bridge. O autor usa testes e análise de dados para detalhar a funcionalidade, vantagens e desvantagens de ambos os links, demonstrando o uso da largura de banda de memória da Trinity com vários jogos e programas de processamento de imagem.

Leia mais
Hardware Interconexão

IBM Telum II: Um Processador Mainframe Revolucionário e sua Estratégia de Cache Virtual

2025-05-19
IBM Telum II: Um Processador Mainframe Revolucionário e sua Estratégia de Cache Virtual

O mais recente processador mainframe da IBM, o Telum II, possui oito núcleos de 5,5 GHz e um enorme cache de 360 MB no chip, juntamente com uma DPU e um acelerador de IA. Seu recurso mais intrigante é sua estratégia inovadora de cache virtual L3 e L4. Ao usar inteligentemente métricas de saturação e políticas de substituição de cache, o Telum II combina virtualmente vários caches L2 em um enorme L3 e um L4 entre chips, aumentando dramaticamente o desempenho de thread único, mantendo uma latência incrivelmente baixa, mesmo com até 32 processadores trabalhando juntos. Essa estratégia pode potencialmente informar os designs futuros de CPUs para clientes, mas desafios permanecem em superar as limitações de largura de banda de interconexão entre chips.

Leia mais
Hardware Cache Virtual

Zhaoxin Century Avenue: Uma análise aprofundada das ambições chinesas em CPUs x86

2025-04-30
Zhaoxin Century Avenue: Uma análise aprofundada das ambições chinesas em CPUs x86

A mais recente CPU da Zhaoxin, a KX-7000, com a nova arquitetura "Century Avenue", visa reduzir a diferença de desempenho com as CPUs Intel do início da década de 2010. Apesar de mostrar progresso com um núcleo mais amplo de 4 vias e velocidades de clock mais altas, a KX-7000 fica atrás em largura de banda de cache, previsão de ramificação e desempenho do subsistema de memória. O desempenho de thread único corresponde aproximadamente ao AMD Bulldozer, superando-o em benchmarks de ponto flutuante, mas ficando aquém em tarefas multi-thread contra Bulldozer e Intel Skylake. O artigo sugere que a KX-7000 não foi projetada para competir diretamente com a AMD e a Intel, mas sim para atender à demanda chinesa por CPUs domésticas, destacando os desafios técnicos e de recursos na busca pelo desempenho.

Leia mais
Hardware CPU x86

Alocação Dinâmica de VGPR do RDNA 4: Quebrando o gargalo do Ray Tracing

2025-04-05
Alocação Dinâmica de VGPR do RDNA 4: Quebrando o gargalo do Ray Tracing

A arquitetura AMD RDNA 4 apresenta um novo modo de alocação dinâmica de VGPR (registradores de uso geral vetoriais) para resolver a compensação entre a contagem de registradores e a ocupação no rastreamento de raios. GPUs tradicionais enfrentam limitações no rastreamento de raios, em que a alocação fixa de registradores por thread restringe o paralelismo de threads em estágios com altas demandas de registradores. A alocação dinâmica do RDNA 4 permite que as threads ajustem as contagens de registradores em tempo de execução, aumentando a ocupação sem aumentar o tamanho do arquivo de registradores, reduzindo assim a latência e aumentando o desempenho do rastreamento de raios. Embora esse modo possa levar a deadlocks, a AMD mitiga isso com um modo de prevenção de deadlocks. Essa não é uma solução universal, limitada a shaders de computação wave32, mas avança significativamente as capacidades de rastreamento de raios da AMD.

Leia mais

AMD RDNA 4: Acessos de memória fora de ordem e eliminação de dependências falsas

2025-03-23
AMD RDNA 4: Acessos de memória fora de ordem e eliminação de dependências falsas

A arquitetura AMD RDNA 4 apresenta melhorias significativas no subsistema de memória, principalmente ao abordar as dependências falsas entre wavefronts presentes no RDNA 3 e arquiteturas anteriores. Anteriormente, um wavefront podia ser bloqueado pelos acessos à memória de outro, afetando o desempenho. O RDNA 4 resolve isso implementando novas filas fora de ordem, permitindo que solicitações de diferentes shaders sejam atendidas fora de ordem. Este artigo detalha testes que verificam essa melhoria e compara arquiteturas de GPU AMD, Intel e Nvidia no tratamento de dependências de memória entre wavefronts. Embora não seja totalmente nova, as melhorias do RDNA 4 aprimoram significativamente o desempenho, particularmente em cargas de trabalho emergentes como o ray tracing.

Leia mais

Imersão na Arquitetura da Intel Xe3: Melhorias Significativas Visam o Mercado de Alta Performance

2025-03-19
Imersão na Arquitetura da Intel Xe3: Melhorias Significativas Visam o Mercado de Alta Performance

Detalhes da arquitetura de GPU Intel Xe3 surgiram, com o desenvolvimento de software visível em vários repositórios de código aberto. A Xe3 possui um potencial máximo de 256 núcleos Xe, significativamente mais que seu antecessor, suportando até 32.768 lanes FP32. As melhorias incluem 10 threads simultâneas por XVE, alocação flexível de registradores, aumento de tokens de placar e uma nova instrução gather-send. Além disso, a Xe3 introduz o Sub-Triangle Opacity Culling (STOC), que subdivide triângulos para reduzir o trabalho de sombreamento desperdiçado, melhorando o desempenho de ray tracing. Esses avanços aproximam a arquitetura da Intel das da AMD e Nvidia em termos de desempenho e eficiência, sinalizando a ambição da Intel no mercado de GPUs de alta performance.

Leia mais

Mergulho profundo no desempenho de rastreamento de raios do Intel Battlemage

2025-03-16
Mergulho profundo no desempenho de rastreamento de raios do Intel Battlemage

Este artigo mergulha no desempenho de rastreamento de raios da GPU Intel Arc B580 sob a arquitetura Battlemage. Ao analisar o rastreamento de caminhos do Cyberpunk 2077 e o benchmark 3DMark Port Royal, ele revela melhorias no Acelerador de Rastreamento de Raios (RTA) do Battlemage, incluindo um pipeline de travessia de raio triplicado, taxa de teste de interseção de triângulo dobrada e um cache BVH de 16 KB. Embora a alta ocupação no rastreamento de caminhos do Cyberpunk 2077 não tenha se traduzido em alta utilização da unidade de execução, o cache e a arquitetura aprimorados se destacaram no Port Royal. O artigo conclui que o Battlemage mostra avanços significativos no rastreamento de raios, mas o subsistema de memória continua sendo um gargalo de desempenho.

Leia mais
Hardware

AMD Strix Halo SoC: Um Threadripper portátil?

2025-03-14
AMD Strix Halo SoC: Um Threadripper portátil?

Na CES 2025, Mahesh Subramony, membro sênior da AMD, revelou o Strix Halo SoC, um processador integrado inovador com CPU Zen 5 e uma iGPU poderosa. Ao contrário do Zen 5 para desktop, o Strix Halo prioriza a eficiência de energia com uma tecnologia inovadora de interconexão die-to-die, reduzindo a latência e aumentando a eficiência. Um cache MALL de 32 MB amplifica principalmente a largura de banda da GPU; embora inacessível diretamente pela CPU, seu design permite atualizações de software futuras para expandir a funcionalidade. Destinado a ser uma estação de trabalho móvel de alto desempenho, o Strix Halo possui uma FPU de 512 bits completa e desempenho multithread impressionante.

Leia mais
Hardware

Zen 5: Como a AMD lida com o AVX-512 de forma elegante em altas frequências

2025-03-01
Zen 5: Como a AMD lida com o AVX-512 de forma elegante em altas frequências

Este artigo mergulha no desempenho da arquitetura Zen 5 da AMD executando instruções AVX-512 em altas frequências. Ao contrário do Intel Skylake-X, que sofria com offsets de frequência fixa e longos períodos de transição, o Zen 5 utiliza sensores integrados aprimorados e clock adaptativo para atingir o desempenho total do AVX-512 em sua frequência máxima de 5,7 GHz. Os testes revelam que o Zen 5 não apresenta quedas significativas de frequência ao encontrar cargas de trabalho AVX-512; em vez disso, ele emprega ajustes granulares de IPC (instruções por ciclo) conforme necessário para manter o alto desempenho. Esse mecanismo de ajuste dinâmico evita efetivamente transições de frequência frequentes, garantindo transições de desempenho suaves entre cargas altas e baixas. Embora quedas breves de IPC possam ocorrer em condições extremas, no geral, o suporte AVX-512 do Zen 5 é impressionante, superando significativamente arquiteturas Intel anteriores.

Leia mais
Hardware

Intel Battlemage: Uma Análise Profunda da Arc B580 e Seus Desafios

2025-02-11
Intel Battlemage: Uma Análise Profunda da Arc B580 e Seus Desafios

A nova arquitetura de GPU Battlemage da Intel chega com a Arc B580, uma placa de médio alcance que visa desestabilizar o mercado com 12 GB de VRAM a US$ 250. Este artigo mergulha nas melhorias do Battlemage em relação ao Alchemist, incluindo unidades Xe Vector mais amplas, mecanismos de cache aprimorados e acesso à memória otimizado. Apesar de especificações mais baixas no papel, a B580 surpreendentemente supera sua antecessora, a A770, em testes do mundo real. No entanto, problemas de driver e a dependência do Resizable BAR permanecem obstáculos que a Intel precisa superar.

Leia mais
Hardware

Xuantie C910 da Alibaba: Núcleo RISC-V ambicioso, mas com fundamentos fracos

2025-02-04
Xuantie C910 da Alibaba: Núcleo RISC-V ambicioso, mas com fundamentos fracos

A divisão T-HEAD da Alibaba lançou o Xuantie C910, um núcleo RISC-V de alto desempenho com o objetivo de reduzir a dependência de chips estrangeiros e fornecer soluções econômicas para IoT e computação de borda. Esta análise aprofundada examina a arquitetura do C910, incluindo seu mecanismo de execução fora de ordem, preditor de desvios e sistema de cache, revelando características de desempenho por meio de testes. Embora excelente em extensões vetoriais e tratamento de acessos desalinhados, o C910 sofre com um mecanismo fora de ordem desequilibrado, com capacidade insuficiente de escalonador e arquivo de registradores em relação ao tamanho do seu ROB. Seu sistema de cache fraco limita ainda mais o desempenho. Apesar da ambição, o C910 precisa de melhorias no equilíbrio entre arquitetura de núcleo e subsistema de memória.

Leia mais

Mergulho profundo na microarquitetura SiFive P550: um passo ambicioso do RISC-V

2025-01-27
Mergulho profundo na microarquitetura SiFive P550: um passo ambicioso do RISC-V

Este artigo mergulha na microarquitetura SiFive P550, um núcleo de processador RISC-V voltado para aplicativos de alto desempenho. O P550 emprega uma arquitetura de execução fora de ordem de três vias com um pipeline de 13 estágios, com o objetivo de atingir 30% de desempenho superior em menos da metade da área de um Arm Cortex A75 comparável. A análise compara o P550 com o Cortex A75, examinando a previsão de desvios, a busca e decodificação de instruções, a execução fora de ordem e o subsistema de memória. Embora o P550 apresente fraquezas em áreas como acesso de memória desalinhado, ele representa um passo significativo para o RISC-V. Embora precise de refinamentos adicionais, o P550 demonstra o progresso da SiFive em direção a CPUs de uso geral de alto desempenho.

Leia mais
Hardware Microarquitetura

Desativando o cache de operação do Zen 5: Uma análise aprofundada de seus decodificadores agrupados

2025-01-24
Desativando o cache de operação do Zen 5: Uma análise aprofundada de seus decodificadores agrupados

Este artigo mergulha no mecanismo de busca e decodificação de instruções do processador AMD Zen 5. O Zen 5 utiliza uma arquitetura única de cluster de decodificadores duplos, com cada cluster atendendo a uma das duas threads SMT do núcleo. Normalmente, o Zen 5 conta com um cache de operação de 6 KB para fornecer instruções, com os decodificadores apenas ativando em caso de falha no cache. O autor desativa o cache de operação, forçando os decodificadores a lidar com todas as instruções, para avaliar seu desempenho. Os testes revelam quedas significativas de desempenho no modo de thread único com o cache de operação desativado; no entanto, no modo multithread, os clusters de decodificadores duplos compensam efetivamente a perda de desempenho, mostrando até mesmo ganhos de desempenho em algumas cargas de trabalho multithread. O autor conclui que o projeto de cluster de decodificadores duplos do Zen 5 não é a fonte primária de instruções, mas atua como um mecanismo secundário, aumentando o desempenho em cenários de alto IPC e multithread, complementando o cache de operação para um equilíbrio de desempenho e consumo de energia.

Leia mais

Skymont da Intel: Uma Análise Profunda da Arquitetura do Núcleo E

2025-01-18
Skymont da Intel: Uma Análise Profunda da Arquitetura do Núcleo E

O mais recente chip móvel da Intel, Lunar Lake, apresenta o Skymont, uma nova arquitetura de núcleo E que substitui o Crestmont do Meteor Lake. O Skymont melhora significativamente o desempenho multithread e o tratamento de tarefas em segundo plano de baixo consumo de energia. Este artigo fornece uma análise aprofundada da arquitetura do Skymont, cobrindo previsão de ramificações, busca e decodificação de instruções, mecanismo de execução fora de ordem, execução inteira, execução de ponto flutuante e vetorial, carga/armazenamento e acesso a cache e memória. Embora o Skymont se destaque em alguns benchmarks, suas vantagens sobre os núcleos Crestmont do Meteor Lake e os núcleos Zen 5c da AMD nem sempre são claras. Isso destaca o papel crucial da arquitetura de cache no desempenho da CPU e os desafios de projetar uma única arquitetura de núcleo para lidar com cargas de trabalho multithread de baixo consumo de energia e alto desempenho.

Leia mais
Hardware Núcleo E

AMD Radeon Instinct MI300A: Uma Análise Profunda da Arquitetura de sua APU Gigantesca

2025-01-18
AMD Radeon Instinct MI300A: Uma Análise Profunda da Arquitetura de sua APU Gigantesca

A AMD Radeon Instinct MI300A é uma APU colossal que integra 24 núcleos Zen 4 e 228 unidades de computação CDNA3. Este artigo mergulha em sua gigantesca interconexão Infinity Fabric, destacando suas características de alta largura de banda e baixa latência, e o compartilhamento eficiente de dados entre CPU e GPU. Embora seu subsistema de memória de alta largura de banda seja excelente para a GPU, ele afeta a latência da CPU, resultando em desempenho de inteiro de thread único comparável ao Ryzen 9 3950X de anos atrás. Apesar disso, a MI300A obteve sucesso significativo em supercomputação, notavelmente alimentando o sistema El Capitan da LLNL e liderando a lista TOP500.

Leia mais
Hardware

CPU Monaka da Fujitsu: ARMv9, SVE2 e Chips com Empilhamento 3D

2024-12-14
CPU Monaka da Fujitsu: ARMv9, SVE2 e Chips com Empilhamento 3D

A Fujitsu está prestes a lançar a Monaka, uma nova CPU para data centers, com lançamento previsto para 2027. A Monaka usa a arquitetura ARMv9, extensões SVE2 e empilhamento 3D, assemelhando-se à arquitetura AMD EPYC com um chip IO central e unidades de SRAM e computação desagregadas. Cada CPU Monaka terá até 144 núcleos distribuídos em quatro chipsets de 36 núcleos, todos construídos em um processo de 2 nm. A entrada/saída oferece 12 canais de memória DDR5 (potencialmente ultrapassando 600 GB/s de largura de banda), PCIe 6.0 com suporte CXL 3.0 e resfriamento a ar. Ao contrário de sua predecessora, A64FX, a Monaka omite o suporte HBM e se concentra no mercado geral de data centers.

Leia mais
Hardware Empilhamento 3D