Webtagr - Sumário de Notícias de Tecnologia

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

AMD RDNA4: Eficiência acima de tudo na nova arquitetura de GPU

2025-09-14

AMD RDNA4: Eficiência acima de tudo na nova arquitetura de GPU

A mais recente arquitetura RDNA4 da AMD prioriza a eficiência em vez do desempenho bruto. As GPUs da série RX 9000 com RDNA4 oferecem melhorias significativas de eficiência em ray tracing e aprendizado de máquina, além de aprimorar a rasterização. As melhorias incluem compressão aprimorada, um mecanismo de mídia mais rápido (compatível com codecs H.264, H.265 e AV1 com latência reduzida) e um mecanismo de exibição atualizado (integrando o filtro de nitidez Radeon Image Sharpening). O RDNA4 se destaca no consumo de energia, especialmente no consumo de energia inativo em monitores múltiplos. Ganhos adicionais de desempenho e eficiência vêm de um processador de grupo de trabalho aprimorado, cache L2 maior e arquitetura Infinity Fabric otimizada. Em resumo, o RDNA4 representa um salto significativo no design de GPU da AMD, priorizando a eficiência para oferecer uma experiência mais equilibrada e eficiente em termos de energia para jogadores e profissionais.

(chipsandcheese.com)

Hardware

Hot Chips 2025: Resumo da Sessão de CPUs

2025-09-11

Hot Chips 2025: Resumo da Sessão de CPUs

A sessão de CPUs na Hot Chips 2025 apresentou apresentações interessantes de várias gigantes do setor. A Condor Computing mostrou seu novo núcleo Cuzco, a PEZY revelou detalhes sobre seu próximo chip SC4s, a IBM discutiu seu chip Power11 já em produção, e a Intel apresentou seu próximo CPU Xeon baseado em E-Core, com o nome de código Clearwater Forest. Links para artigos detalhados sobre cada um são fornecidos para leitura adicional.

(chipsandcheese.com)

Hardware

Intel Mount Morgan IPU: Um Monstro de Processador de Infraestrutura em Nuvem

2025-09-11

Intel Mount Morgan IPU: Um Monstro de Processador de Infraestrutura em Nuvem

A Intel revelou sua unidade de processamento de infraestrutura (IPU) de próxima geração, Mount Morgan, uma atualização significativa em relação à sua predecessora, Mount Evans. Com 24 núcleos Arm Neoverse N2, aceleradores aprimorados e maior largura de banda, o Mount Morgan lida com uma gama mais ampla de serviços de infraestrutura em nuvem, desde o provisionamento de VMs e coleta de métricas até funções de rede. As melhorias principais incluem poder de computação aprimorado, largura de banda de memória mais rápida (LPDDR5-6400), um mecanismo aprimorado de criptografia e compressão (LCE) com suporte de criptografia assimétrica e uma taxa de transferência Ethernet dobrada de 400 Gbps. Sua arquitetura flexível permite que ele opere em vários modos, incluindo como um servidor autônomo ou em conjunto com até quatro servidores host. O Mount Morgan representa um grande passo na estratégia de aceleração de hardware em nuvem da Intel, com o objetivo de competir em um mercado em rápida evolução.

(chipsandcheese.com)

Hardware

PEZY-SC4S: Novo processador FP64 de alta eficiência do Japão

2025-09-10

PEZY-SC4S: Novo processador FP64 de alta eficiência do Japão

A PEZY Computing, uma empresa japonesa de supercomputação, apresentou sua mais nova arquitetura, PEZY-SC4S, no Hot Chips 2025. Este processador se concentra em computação FP64 de alta eficiência, utilizando uma matriz massivamente paralela de unidades de execução com clocks e voltagens mais baixos do que as GPUs contemporâneas. O PEZY-SC4S possui um sistema de cache de vários níveis para equilibrar capacidade e velocidade, e emprega vetores pequenos para reduzir perdas de throughput devido à divergência de ramificações. Seu modelo de programação é semelhante ao OpenCL, tornando-o fácil de usar. Em comparação com seu antecessor, o PEZY-SC4S apresenta melhorias significativas de eficiência, com consumo de energia projetado abaixo de 300W e atingindo ~91 Gigaflops por Watt. Destinado a aplicações que exigem computação de alta precisão, como simulações, o processador destaca o investimento contínuo do Japão no desenvolvimento independente de chips de supercomputação.

(chipsandcheese.com)

Tecnologia supercomputação computação de alta eficiência

Hot Chips 2025: Inovações em resfriamento líquido para o boom da IA

2025-09-05

Hot Chips 2025: Inovações em resfriamento líquido para o boom da IA

O Hot Chips 2025 apresentou tecnologias avançadas de resfriamento líquido adaptadas para chips de IA. Os fornecedores exibiram várias placas frias baseadas em microjatos capazes de resfriar com precisão os pontos críticos dos chips, até mesmo injetando água diretamente no die. Embora atualmente focado em aplicações de servidor, o controle preciso de temperatura oferece benefícios potenciais para hardware de consumo no futuro. A exposição também apresentou placas frias em diferentes materiais, como alumínio leve e cobre altamente eficiente, atendendo a diferentes necessidades de peso e resfriamento de servidores. Diante do aumento constante da demanda de energia e da dissipação de calor dos chips de IA, essas inovações em resfriamento líquido estão se tornando soluções cruciais para o resfriamento de data centers.

(chipsandcheese.com)

Hardware resfriamento líquido

Condor apresenta Cuzco: Um núcleo RISC-V de alto desempenho com uma abordagem inovadora

2025-08-30

Condor apresenta Cuzco: Um núcleo RISC-V de alto desempenho com uma abordagem inovadora

A Condor Computing, subsidiária da Andes Technology, revelou seu núcleo RISC-V de alto desempenho, Cuzco, na Hot Chips 2025. O Cuzco possui um mecanismo de execução fora de ordem de 8 vias, um preditor de desvios moderno e um esquema de agendamento baseado em tempo inovador, colocando-o no mesmo nível que o P870 da SiFive e o V1 da Veyron. Sua abordagem única utiliza principalmente o agendamento estático no back-end para eficiência de energia e complexidade reduzida, não exigindo alterações de ISA ou ajustes do compilador para desempenho ideal. O Cuzco é altamente configurável, permitindo personalização para atender às diversas necessidades dos clientes e suporta clusters multinúcleo.

(chipsandcheese.com)

Hardware

Resfriamento a líquido em escala de data center do Google: uma revolução para IA

2025-08-26

Resfriamento a líquido em escala de data center do Google: uma revolução para IA

A ascensão da IA criou um desafio significativo de calor para data centers. No Hot Chips 2025, o Google apresentou seu sistema massivo de resfriamento a líquido projetado para suas TPUs. Este sistema usa CDUs (Unidades de Distribuição de Refrigerante) para resfriamento em nível de rack, reduzindo significativamente o consumo de energia em comparação com o resfriamento a ar e garantindo a estabilidade do sistema por meio de redundância. O Google também emprega um design de matriz nua, semelhante ao 'de-lidding' de entusiastas de PC, para melhorar a eficiência de transferência de calor de sua TPUv4. Essa solução não apenas aborda as imensas demandas de resfriamento da IA, mas também aponta para uma nova direção para futuras soluções de resfriamento de data centers.

(chipsandcheese.com)

Tecnologia resfriamento a líquido

Intel Lion Cove: Uma análise profunda do desempenho em jogos

2025-07-07

Intel Lion Cove: Uma análise profunda do desempenho em jogos

A mais recente arquitetura de CPU de alto desempenho da Intel, Lion Cove, se destaca nos benchmarks SPEC CPU2017 e até mesmo rivaliza com o AMD Zen 5. No entanto, as cargas de trabalho de jogos diferem significativamente das tarefas de produtividade. Este artigo mergulha profundamente no desempenho do Lion Cove em jogos, analisando dados detalhados sobre a hierarquia de cache, latência de execução de instruções, previsão de desvios e muito mais. Ele revela os pontos fortes e fracos do Lion Cove em cenários de jogos e o compara ao Zen 4. Os resultados mostram um front-end forte, mas um gargalo na latência de memória de back-end, deixando espaço para melhorias no desempenho de jogos.

(chipsandcheese.com)

Hardware Desempenho em jogos

Nvidia Blackwell: Um Colossus de Computação, Mas a Que Custo?

2025-06-29

Nvidia Blackwell: Um Colossus de Computação, Mas a Que Custo?

A mais recente arquitetura Blackwell da Nvidia, exemplificada pela RTX PRO 6000, ostenta um gigantesco chip GB202 (750mm², 92,2 bilhões de transistores) e impressionantes 188 unidades SM, oferecendo desempenho de computação incomparável. Uma análise aprofundada de sua microarquitetura revela detalhes sobre o cache de instruções, unidades de execução e subsistemas de memória, comparando-o com a arquitetura RDNA4 da AMD. Embora a Blackwell apresente algumas imperfeições, como o desempenho do cache L2 e a eficiência por unidade, sua escala pura supera a concorrência, tornando-a a maior GPU para consumidor disponível. Essa ambição, no entanto, tem um custo, incluindo consumo de energia (600W) e latência do L2. O artigo conclui com uma perspectiva sobre o cenário futuro da GPU.

(chipsandcheese.com)

Hardware

Imersão no AMD Instinct MI350: Acelerador de IA baseado em GCN

2025-06-20

Imersão no AMD Instinct MI350: Acelerador de IA baseado em GCN

Em uma entrevista, Alan Smith, arquiteto-chefe do Instinct da AMD, mergulhou nos detalhes dos novos aceleradores de IA da série MI350, baseados na arquitetura GFX9. Embora o MI350 retenha a arquitetura GFX9, melhorias significativas de desempenho são alcançadas por meio do aumento da capacidade do LDS (160 KB) e da largura de banda, juntamente com a introdução de formatos de microescala que suportam tipos de dados FP8, FP6 e FP4. Notavelmente, o FP6 e o FP4 do MI350 possuem a mesma taxa de transferência, refletindo a confiança da AMD no potencial do FP6 para treinamento e inferência. Além disso, o MI350 omite a aceleração de hardware TF32 em favor do BF16 otimizado, oferecendo emulação de software para suporte TF32. Construído com chips de computação de processo N3P e chips de E/S de processo N6, o MI350 otimiza o design e reduz as unidades de computação para atingir alto desempenho ao mesmo tempo em que reduz o consumo de energia.

(chipsandcheese.com)

Hardware

Arquitetura AMD CDNA 4: Equilibrando Operações de Matriz e Vetor

2025-06-17

Arquitetura AMD CDNA 4: Equilibrando Operações de Matriz e Vetor

A AMD apresenta sua mais recente arquitetura de GPU orientada para computação, CDNA 4, uma atualização modesta em relação à CDNA 3. O foco é aumentar o desempenho da multiplicação de matrizes com tipos de dados de baixa precisão, cruciais para aprendizado de máquina. Simultaneamente, a CDNA 4 visa manter a liderança da AMD em operações vetoriais. Usando um design multi-chiplet semelhante ao da CDNA 3 e aumentando as velocidades de clock, a CDNA 4 melhora a capacidade e a largura de banda do Compartilhamento de Dados Local (LDS), introduzindo instruções LDS de leitura com transposição para otimizar a multiplicação de matrizes. Embora esteja atrás da arquitetura Blackwell da Nvidia em operações de matriz de baixa precisão, a CDNA 4 mantém uma vantagem significativa em operações vetoriais e tipos de dados de alta precisão devido ao seu maior número de núcleos e velocidades de clock.

(chipsandcheese.com)

Hardware

O Interconecto Compromissado do AMD Trinity: Uma Década de Integração de iGPU

2025-06-17

O Interconecto Compromissado do AMD Trinity: Uma Década de Integração de iGPU

Este artigo mergulha na arquitetura de interconexão de memória da APU AMD Trinity (lançada em 2012). Ao contrário do Infinity Fabric posterior, a Trinity usa dois links distintos, "Onion" e "Garlic", para conectar a CPU e a iGPU. "Onion" garante coerência de cache, mas é limitado em largura de banda, enquanto "Garlic" oferece alta largura de banda, mas sem coerência. Este design reflete um compromisso baseado na arquitetura Athlon 64 da época, resultando em penalidades de desempenho quando a CPU e a GPU acessam a memória uma da outra. Embora tenha um desempenho adequado para cargas de trabalho gráficas como jogos, a arquitetura da Trinity carece da elegância e eficiência das iGPUs integradas Intel Sandy Bridge/Ivy Bridge. O autor usa testes e análise de dados para detalhar a funcionalidade, vantagens e desvantagens de ambos os links, demonstrando o uso da largura de banda de memória da Trinity com vários jogos e programas de processamento de imagem.

(chipsandcheese.com)

Hardware Interconexão

IBM Telum II: Um Processador Mainframe Revolucionário e sua Estratégia de Cache Virtual

2025-05-19

IBM Telum II: Um Processador Mainframe Revolucionário e sua Estratégia de Cache Virtual

O mais recente processador mainframe da IBM, o Telum II, possui oito núcleos de 5,5 GHz e um enorme cache de 360 MB no chip, juntamente com uma DPU e um acelerador de IA. Seu recurso mais intrigante é sua estratégia inovadora de cache virtual L3 e L4. Ao usar inteligentemente métricas de saturação e políticas de substituição de cache, o Telum II combina virtualmente vários caches L2 em um enorme L3 e um L4 entre chips, aumentando dramaticamente o desempenho de thread único, mantendo uma latência incrivelmente baixa, mesmo com até 32 processadores trabalhando juntos. Essa estratégia pode potencialmente informar os designs futuros de CPUs para clientes, mas desafios permanecem em superar as limitações de largura de banda de interconexão entre chips.

(chipsandcheese.com)

Hardware Cache Virtual

Zhaoxin Century Avenue: Uma análise aprofundada das ambições chinesas em CPUs x86

2025-04-30

Zhaoxin Century Avenue: Uma análise aprofundada das ambições chinesas em CPUs x86

A mais recente CPU da Zhaoxin, a KX-7000, com a nova arquitetura "Century Avenue", visa reduzir a diferença de desempenho com as CPUs Intel do início da década de 2010. Apesar de mostrar progresso com um núcleo mais amplo de 4 vias e velocidades de clock mais altas, a KX-7000 fica atrás em largura de banda de cache, previsão de ramificação e desempenho do subsistema de memória. O desempenho de thread único corresponde aproximadamente ao AMD Bulldozer, superando-o em benchmarks de ponto flutuante, mas ficando aquém em tarefas multi-thread contra Bulldozer e Intel Skylake. O artigo sugere que a KX-7000 não foi projetada para competir diretamente com a AMD e a Intel, mas sim para atender à demanda chinesa por CPUs domésticas, destacando os desafios técnicos e de recursos na busca pelo desempenho.

(chipsandcheese.com)

Hardware CPU x86

Alocação Dinâmica de VGPR do RDNA 4: Quebrando o gargalo do Ray Tracing

2025-04-05

Alocação Dinâmica de VGPR do RDNA 4: Quebrando o gargalo do Ray Tracing

A arquitetura AMD RDNA 4 apresenta um novo modo de alocação dinâmica de VGPR (registradores de uso geral vetoriais) para resolver a compensação entre a contagem de registradores e a ocupação no rastreamento de raios. GPUs tradicionais enfrentam limitações no rastreamento de raios, em que a alocação fixa de registradores por thread restringe o paralelismo de threads em estágios com altas demandas de registradores. A alocação dinâmica do RDNA 4 permite que as threads ajustem as contagens de registradores em tempo de execução, aumentando a ocupação sem aumentar o tamanho do arquivo de registradores, reduzindo assim a latência e aumentando o desempenho do rastreamento de raios. Embora esse modo possa levar a deadlocks, a AMD mitiga isso com um modo de prevenção de deadlocks. Essa não é uma solução universal, limitada a shaders de computação wave32, mas avança significativamente as capacidades de rastreamento de raios da AMD.

(chipsandcheese.com)

Hardware Alocação Dinâmica de VGPR

AMD RDNA 4: Acessos de memória fora de ordem e eliminação de dependências falsas

2025-03-23

AMD RDNA 4: Acessos de memória fora de ordem e eliminação de dependências falsas

A arquitetura AMD RDNA 4 apresenta melhorias significativas no subsistema de memória, principalmente ao abordar as dependências falsas entre wavefronts presentes no RDNA 3 e arquiteturas anteriores. Anteriormente, um wavefront podia ser bloqueado pelos acessos à memória de outro, afetando o desempenho. O RDNA 4 resolve isso implementando novas filas fora de ordem, permitindo que solicitações de diferentes shaders sejam atendidas fora de ordem. Este artigo detalha testes que verificam essa melhoria e compara arquiteturas de GPU AMD, Intel e Nvidia no tratamento de dependências de memória entre wavefronts. Embora não seja totalmente nova, as melhorias do RDNA 4 aprimoram significativamente o desempenho, particularmente em cargas de trabalho emergentes como o ray tracing.

(chipsandcheese.com)

Hardware arquitetura de GPU subsistema de memória

Imersão na Arquitetura da Intel Xe3: Melhorias Significativas Visam o Mercado de Alta Performance

2025-03-19

Imersão na Arquitetura da Intel Xe3: Melhorias Significativas Visam o Mercado de Alta Performance

Detalhes da arquitetura de GPU Intel Xe3 surgiram, com o desenvolvimento de software visível em vários repositórios de código aberto. A Xe3 possui um potencial máximo de 256 núcleos Xe, significativamente mais que seu antecessor, suportando até 32.768 lanes FP32. As melhorias incluem 10 threads simultâneas por XVE, alocação flexível de registradores, aumento de tokens de placar e uma nova instrução gather-send. Além disso, a Xe3 introduz o Sub-Triangle Opacity Culling (STOC), que subdivide triângulos para reduzir o trabalho de sombreamento desperdiçado, melhorando o desempenho de ray tracing. Esses avanços aproximam a arquitetura da Intel das da AMD e Nvidia em termos de desempenho e eficiência, sinalizando a ambição da Intel no mercado de GPUs de alta performance.

(chipsandcheese.com)

Hardware Arquitetura de GPU

Mergulho profundo no desempenho de rastreamento de raios do Intel Battlemage

2025-03-16

Mergulho profundo no desempenho de rastreamento de raios do Intel Battlemage

Este artigo mergulha no desempenho de rastreamento de raios da GPU Intel Arc B580 sob a arquitetura Battlemage. Ao analisar o rastreamento de caminhos do Cyberpunk 2077 e o benchmark 3DMark Port Royal, ele revela melhorias no Acelerador de Rastreamento de Raios (RTA) do Battlemage, incluindo um pipeline de travessia de raio triplicado, taxa de teste de interseção de triângulo dobrada e um cache BVH de 16 KB. Embora a alta ocupação no rastreamento de caminhos do Cyberpunk 2077 não tenha se traduzido em alta utilização da unidade de execução, o cache e a arquitetura aprimorados se destacaram no Port Royal. O artigo conclui que o Battlemage mostra avanços significativos no rastreamento de raios, mas o subsistema de memória continua sendo um gargalo de desempenho.

(chipsandcheese.com)

Hardware

AMD Strix Halo SoC: Um Threadripper portátil?

2025-03-14

AMD Strix Halo SoC: Um Threadripper portátil?

Na CES 2025, Mahesh Subramony, membro sênior da AMD, revelou o Strix Halo SoC, um processador integrado inovador com CPU Zen 5 e uma iGPU poderosa. Ao contrário do Zen 5 para desktop, o Strix Halo prioriza a eficiência de energia com uma tecnologia inovadora de interconexão die-to-die, reduzindo a latência e aumentando a eficiência. Um cache MALL de 32 MB amplifica principalmente a largura de banda da GPU; embora inacessível diretamente pela CPU, seu design permite atualizações de software futuras para expandir a funcionalidade. Destinado a ser uma estação de trabalho móvel de alto desempenho, o Strix Halo possui uma FPU de 512 bits completa e desempenho multithread impressionante.

(chipsandcheese.com)

Hardware

Zen 5: Como a AMD lida com o AVX-512 de forma elegante em altas frequências

2025-03-01

Zen 5: Como a AMD lida com o AVX-512 de forma elegante em altas frequências

Este artigo mergulha no desempenho da arquitetura Zen 5 da AMD executando instruções AVX-512 em altas frequências. Ao contrário do Intel Skylake-X, que sofria com offsets de frequência fixa e longos períodos de transição, o Zen 5 utiliza sensores integrados aprimorados e clock adaptativo para atingir o desempenho total do AVX-512 em sua frequência máxima de 5,7 GHz. Os testes revelam que o Zen 5 não apresenta quedas significativas de frequência ao encontrar cargas de trabalho AVX-512; em vez disso, ele emprega ajustes granulares de IPC (instruções por ciclo) conforme necessário para manter o alto desempenho. Esse mecanismo de ajuste dinâmico evita efetivamente transições de frequência frequentes, garantindo transições de desempenho suaves entre cargas altas e baixas. Embora quedas breves de IPC possam ocorrer em condições extremas, no geral, o suporte AVX-512 do Zen 5 é impressionante, superando significativamente arquiteturas Intel anteriores.

(chipsandcheese.com)

Hardware

Intel Battlemage: Uma Análise Profunda da Arc B580 e Seus Desafios

2025-02-11

Intel Battlemage: Uma Análise Profunda da Arc B580 e Seus Desafios

A nova arquitetura de GPU Battlemage da Intel chega com a Arc B580, uma placa de médio alcance que visa desestabilizar o mercado com 12 GB de VRAM a US$ 250. Este artigo mergulha nas melhorias do Battlemage em relação ao Alchemist, incluindo unidades Xe Vector mais amplas, mecanismos de cache aprimorados e acesso à memória otimizado. Apesar de especificações mais baixas no papel, a B580 surpreendentemente supera sua antecessora, a A770, em testes do mundo real. No entanto, problemas de driver e a dependência do Resizable BAR permanecem obstáculos que a Intel precisa superar.

(chipsandcheese.com)

Hardware

Xuantie C910 da Alibaba: Núcleo RISC-V ambicioso, mas com fundamentos fracos

2025-02-04

$Xuantie C910 da Alibaba: Núcleo RISC-V ambicioso, mas com fundamentos fracos$

A divisão T-HEAD da Alibaba lançou o Xuantie C910, um núcleo RISC-V de alto desempenho com o objetivo de reduzir a dependência de chips estrangeiros e fornecer soluções econômicas para IoT e computação de borda. Esta análise aprofundada examina a arquitetura do C910, incluindo seu mecanismo de execução fora de ordem, preditor de desvios e sistema de cache, revelando características de desempenho por meio de testes. Embora excelente em extensões vetoriais e tratamento de acessos desalinhados, o C910 sofre com um mecanismo fora de ordem desequilibrado, com capacidade insuficiente de escalonador e arquivo de registradores em relação ao tamanho do seu ROB. Seu sistema de cache fraco limita ainda mais o desempenho. Apesar da ambição, o C910 precisa de melhorias no equilíbrio entre arquitetura de núcleo e subsistema de memória.

(chipsandcheese.com)

Hardware Arquitetura de Chip

Mergulho profundo na microarquitetura SiFive P550: um passo ambicioso do RISC-V

2025-01-27

Mergulho profundo na microarquitetura SiFive P550: um passo ambicioso do RISC-V

Este artigo mergulha na microarquitetura SiFive P550, um núcleo de processador RISC-V voltado para aplicativos de alto desempenho. O P550 emprega uma arquitetura de execução fora de ordem de três vias com um pipeline de 13 estágios, com o objetivo de atingir 30% de desempenho superior em menos da metade da área de um Arm Cortex A75 comparável. A análise compara o P550 com o Cortex A75, examinando a previsão de desvios, a busca e decodificação de instruções, a execução fora de ordem e o subsistema de memória. Embora o P550 apresente fraquezas em áreas como acesso de memória desalinhado, ele representa um passo significativo para o RISC-V. Embora precise de refinamentos adicionais, o P550 demonstra o progresso da SiFive em direção a CPUs de uso geral de alto desempenho.

(chipsandcheese.com)

Hardware Microarquitetura

Desativando o cache de operação do Zen 5: Uma análise aprofundada de seus decodificadores agrupados

2025-01-24

Desativando o cache de operação do Zen 5: Uma análise aprofundada de seus decodificadores agrupados

Este artigo mergulha no mecanismo de busca e decodificação de instruções do processador AMD Zen 5. O Zen 5 utiliza uma arquitetura única de cluster de decodificadores duplos, com cada cluster atendendo a uma das duas threads SMT do núcleo. Normalmente, o Zen 5 conta com um cache de operação de 6 KB para fornecer instruções, com os decodificadores apenas ativando em caso de falha no cache. O autor desativa o cache de operação, forçando os decodificadores a lidar com todas as instruções, para avaliar seu desempenho. Os testes revelam quedas significativas de desempenho no modo de thread único com o cache de operação desativado; no entanto, no modo multithread, os clusters de decodificadores duplos compensam efetivamente a perda de desempenho, mostrando até mesmo ganhos de desempenho em algumas cargas de trabalho multithread. O autor conclui que o projeto de cluster de decodificadores duplos do Zen 5 não é a fonte primária de instruções, mas atua como um mecanismo secundário, aumentando o desempenho em cenários de alto IPC e multithread, complementando o cache de operação para um equilíbrio de desempenho e consumo de energia.

(chipsandcheese.com)

Hardware Arquitetura de CPU

Skymont da Intel: Uma Análise Profunda da Arquitetura do Núcleo E

2025-01-18

Skymont da Intel: Uma Análise Profunda da Arquitetura do Núcleo E

O mais recente chip móvel da Intel, Lunar Lake, apresenta o Skymont, uma nova arquitetura de núcleo E que substitui o Crestmont do Meteor Lake. O Skymont melhora significativamente o desempenho multithread e o tratamento de tarefas em segundo plano de baixo consumo de energia. Este artigo fornece uma análise aprofundada da arquitetura do Skymont, cobrindo previsão de ramificações, busca e decodificação de instruções, mecanismo de execução fora de ordem, execução inteira, execução de ponto flutuante e vetorial, carga/armazenamento e acesso a cache e memória. Embora o Skymont se destaque em alguns benchmarks, suas vantagens sobre os núcleos Crestmont do Meteor Lake e os núcleos Zen 5c da AMD nem sempre são claras. Isso destaca o papel crucial da arquitetura de cache no desempenho da CPU e os desafios de projetar uma única arquitetura de núcleo para lidar com cargas de trabalho multithread de baixo consumo de energia e alto desempenho.

(chipsandcheese.com)

Hardware Núcleo E

AMD Radeon Instinct MI300A: Uma Análise Profunda da Arquitetura de sua APU Gigantesca

2025-01-18

AMD Radeon Instinct MI300A: Uma Análise Profunda da Arquitetura de sua APU Gigantesca

A AMD Radeon Instinct MI300A é uma APU colossal que integra 24 núcleos Zen 4 e 228 unidades de computação CDNA3. Este artigo mergulha em sua gigantesca interconexão Infinity Fabric, destacando suas características de alta largura de banda e baixa latência, e o compartilhamento eficiente de dados entre CPU e GPU. Embora seu subsistema de memória de alta largura de banda seja excelente para a GPU, ele afeta a latência da CPU, resultando em desempenho de inteiro de thread único comparável ao Ryzen 9 3950X de anos atrás. Apesar disso, a MI300A obteve sucesso significativo em supercomputação, notavelmente alimentando o sistema El Capitan da LLNL e liderando a lista TOP500.

(chipsandcheese.com)

Hardware

CPU Monaka da Fujitsu: ARMv9, SVE2 e Chips com Empilhamento 3D

2024-12-14

CPU Monaka da Fujitsu: ARMv9, SVE2 e Chips com Empilhamento 3D

A Fujitsu está prestes a lançar a Monaka, uma nova CPU para data centers, com lançamento previsto para 2027. A Monaka usa a arquitetura ARMv9, extensões SVE2 e empilhamento 3D, assemelhando-se à arquitetura AMD EPYC com um chip IO central e unidades de SRAM e computação desagregadas. Cada CPU Monaka terá até 144 núcleos distribuídos em quatro chipsets de 36 núcleos, todos construídos em um processo de 2 nm. A entrada/saída oferece 12 canais de memória DDR5 (potencialmente ultrapassando 600 GB/s de largura de banda), PCIe 6.0 com suporte CXL 3.0 e resfriamento a ar. Ao contrário de sua predecessora, A64FX, a Monaka omite o suporte HBM e se concentra no mercado geral de data centers.

(chipsandcheese.com)

Hardware Empilhamento 3D