Allocation dynamique de VGPR de RDNA 4 : Briser le goulot d’étranglement du ray tracing

2025-04-05
Allocation dynamique de VGPR de RDNA 4 : Briser le goulot d’étranglement du ray tracing

L’architecture AMD RDNA 4 introduit un nouveau mode d’allocation dynamique de VGPR (registres à usage général vectoriels) pour gérer le compromis entre le nombre de registres et l’occupation dans le ray tracing. Les GPU traditionnels rencontrent des limitations dans le ray tracing, où l’allocation fixe des registres par thread limite le parallélisme des threads dans les étapes ayant des demandes élevées de registres. L’allocation dynamique de RDNA 4 permet aux threads d’ajuster le nombre de registres pendant l’exécution, augmentant ainsi l’occupation sans augmenter la taille du fichier de registres, réduisant par conséquent la latence et améliorant les performances du ray tracing. Bien que ce mode puisse entraîner des blocages, AMD les atténue grâce à un mode d’évitement des blocages. Il ne s’agit pas d’une solution universelle, limitée aux shaders de calcul wave32, mais elle améliore considérablement les capacités de ray tracing d’AMD.

Lire plus

AMD RDNA 4 : Accès mémoire hors ordre et élimination des fausses dépendances

2025-03-23
AMD RDNA 4 : Accès mémoire hors ordre et élimination des fausses dépendances

L'architecture AMD RDNA 4 apporte des améliorations significatives au sous-système mémoire, notamment en corrigeant les fausses dépendances entre wavefronts présentes dans les architectures RDNA 3 et antérieures. Auparavant, un wavefront pouvait être bloqué par les accès mémoire d'un autre, affectant les performances. RDNA 4 résout ce problème en implémentant de nouvelles files d'attente hors ordre, permettant aux requêtes de différents shaders d'être traitées hors ordre. Cet article détaille des tests qui vérifient cette amélioration et compare les architectures de GPU AMD, Intel et Nvidia dans la gestion des dépendances mémoire entre wavefronts. Bien que pas totalement nouvelle, l'amélioration de RDNA 4 améliore significativement les performances, notamment dans les charges de travail émergentes comme le ray tracing.

Lire plus

Plongeon dans l'architecture Intel Xe3 : des améliorations significatives ciblent le marché haut de gamme

2025-03-19
Plongeon dans l'architecture Intel Xe3 : des améliorations significatives ciblent le marché haut de gamme

Des détails sur l'architecture GPU Intel Xe3 ont émergé, le développement logiciel étant visible dans plusieurs référentiels open source. La Xe3 dispose d'un potentiel maximum de 256 cœurs Xe, soit beaucoup plus que son prédécesseur, prenant en charge jusqu'à 32 768 voies FP32. Les améliorations comprennent 10 threads simultanés par XVE, une allocation flexible des registres, une augmentation des jetons de tableau de bord et une nouvelle instruction gather-send. De plus, la Xe3 introduit le Sub-Triangle Opacity Culling (STOC), qui subdivise les triangles pour réduire le travail de shader gaspillé, améliorant les performances du ray tracing. Ces avancées rapprochent l'architecture d'Intel de celles d'AMD et de Nvidia en termes de performances et d'efficacité, signalant l'ambition d'Intel sur le marché haut de gamme des GPU.

Lire plus
Matériel Architecture GPU

Plongeon au cœur des performances de ray tracing d'Intel Battlemage

2025-03-16
Plongeon au cœur des performances de ray tracing d'Intel Battlemage

Cet article explore en détail les performances de ray tracing du GPU Intel Arc B580 sous l'architecture Battlemage. En analysant le path tracing de Cyberpunk 2077 et le benchmark 3DMark Port Royal, il met en lumière les améliorations de l'accélérateur de ray tracing (RTA) de Battlemage, notamment un pipeline de parcours de rayons triplé, un taux de test d'intersection de triangles doublé et un cache BVH de 16 Ko. Bien que la forte occupation dans le path tracing de Cyberpunk 2077 ne se traduise pas par une utilisation élevée des unités d'exécution, le cache amélioré et l'architecture ont excellé dans Port Royal. L'article conclut que Battlemage affiche des progrès significatifs en matière de ray tracing, mais le sous-système mémoire reste un goulot d'étranglement pour les performances.

Lire plus
Matériel

AMD Strix Halo SoC : Un Threadripper portable ?

2025-03-14
AMD Strix Halo SoC : Un Threadripper portable ?

Au CES 2025, Mahesh Subramony, membre senior d'AMD, a dévoilé le Strix Halo SoC, un processeur intégré révolutionnaire doté d'un CPU Zen 5 et d'une puissante iGPU. Contrairement au Zen 5 pour ordinateur de bureau, le Strix Halo privilégie l'efficacité énergétique grâce à une technologie d'interconnexion die-to-die innovante, réduisant la latence et augmentant l'efficacité. Un cache MALL de 32 Mo amplifie principalement la bande passante du GPU ; bien qu'inaccessible directement par le CPU, sa conception permet des mises à jour logicielles futures pour étendre les fonctionnalités. Destiné à être une station de travail mobile hautes performances, le Strix Halo possède une FPU 512 bits complète et des performances multithread impressionnantes.

Lire plus
Matériel

Zen 5 : La gestion élégante d’AMD de l’AVX-512 à hautes fréquences

2025-03-01
Zen 5 : La gestion élégante d’AMD de l’AVX-512 à hautes fréquences

Cet article explore en détail les performances de l’architecture Zen 5 d’AMD exécutant des instructions AVX-512 à hautes fréquences. Contrairement à l’Intel Skylake-X, qui souffrait de décalages de fréquence fixes et de longues périodes de transition, le Zen 5 tire parti de capteurs intégrés améliorés et d’une horloge adaptative pour atteindre des performances AVX-512 complètes à sa fréquence maximale de 5,7 GHz. Les tests révèlent que le Zen 5 ne subit pas de baisses de fréquence significatives lorsqu’il rencontre des charges de travail AVX-512 ; au lieu de cela, il utilise des ajustements granulaires d’IPC (instructions par cycle) selon les besoins pour maintenir des performances élevées. Ce mécanisme d’ajustement dynamique évite efficacement les transitions de fréquence fréquentes, assurant des transitions de performances fluides entre les charges lourdes et légères. Bien que de brèves baisses d’IPC puissent survenir dans des conditions extrêmes, globalement, la prise en charge de l’AVX-512 par le Zen 5 est impressionnante, surpassant de loin les architectures Intel précédentes.

Lire plus
Matériel

Intel Battlemage : Plongeon au cœur de l'Arc B580 et de ses défis

2025-02-11
Intel Battlemage : Plongeon au cœur de l'Arc B580 et de ses défis

La nouvelle architecture GPU Battlemage d'Intel arrive avec l'Arc B580, une carte milieu de gamme visant à perturber le marché avec 12 Go de VRAM à 250 $. Cet article explore les améliorations de Battlemage par rapport à Alchemist, notamment des unités Xe Vector plus larges, des mécanismes de cache améliorés et un accès optimisé à la mémoire. Malgré des spécifications inférieures sur le papier, la B580 surpasse étonnamment son prédécesseur, l'A770, lors de tests réels. Cependant, les problèmes de pilotes et la dépendance à Resizable BAR restent des obstacles pour Intel.

Lire plus
Matériel

Le Xuantie C910 d'Alibaba : Un cœur RISC-V ambitieux, mais avec des fondamentaux faibles

2025-02-04
Le Xuantie C910 d'Alibaba : Un cœur RISC-V ambitieux, mais avec des fondamentaux faibles

La division T-HEAD d'Alibaba a lancé le Xuantie C910, un cœur RISC-V hautes performances visant à réduire la dépendance aux puces étrangères et à fournir des solutions économiques pour l'IoT et l'edge computing. Cette analyse approfondie examine l'architecture du C910, notamment son moteur d'exécution hors d'ordre, son prédicteur de branche et son système de cache, révélant les caractéristiques de performance grâce à des tests. Bien qu'il excelle dans les extensions vectorielles et la gestion des accès non alignés, le C910 souffre d'un moteur hors d'ordre déséquilibré avec une capacité insuffisante du planificateur et du fichier de registres par rapport à la taille de son ROB. Son système de cache faible limite encore plus les performances. Malgré son ambition, le C910 nécessite des améliorations pour équilibrer l'architecture du cœur et le sous-système mémoire.

Lire plus

Plongeon au cœur de la microarchitecture SiFive P550 : un pas ambitieux pour RISC-V

2025-01-27
Plongeon au cœur de la microarchitecture SiFive P550 : un pas ambitieux pour RISC-V

Cet article explore en détail la microarchitecture SiFive P550, un cœur de processeur RISC-V destiné aux applications hautes performances. Le P550 utilise une architecture d’exécution hors d’ordre à trois voies avec un pipeline à 13 étages, visant à obtenir 30 % de performances supérieures avec moins de la moitié de la surface d’un Arm Cortex A75 comparable. L’analyse compare le P550 au Cortex A75, en examinant la prédiction de branchement, la récupération et le décodage des instructions, l’exécution hors d’ordre et le sous-système de mémoire. Bien que le P550 présente des faiblesses dans des domaines tels que l’accès mémoire non aligné, il représente une avancée significative pour RISC-V. Néanmoins, des améliorations sont encore nécessaires, le P550 démontre les progrès de SiFive vers des processeurs polyvalents hautes performances.

Lire plus
Matériel

Désactivation du cache d'opérations du Zen 5 : plongée au cœur de ses décodeurs clusterisés

2025-01-24
Désactivation du cache d'opérations du Zen 5 : plongée au cœur de ses décodeurs clusterisés

Cet article explore en profondeur le mécanisme de récupération et de décodage des instructions du processeur AMD Zen 5. Le Zen 5 utilise une architecture unique de grappes de décodeurs doubles, chaque grappe servant l'un des deux threads SMT du cœur. Normalement, le Zen 5 s'appuie sur un cache d'opérations de 6 Ko pour fournir les instructions, les décodeurs ne s'activant qu'en cas de manque de cache. L'auteur désactive le cache d'opérations, forçant les décodeurs à gérer toutes les instructions, afin d'évaluer leurs performances. Les tests révèlent des baisses de performances significatives en mode monothread avec le cache d'opérations désactivé ; cependant, en mode multithread, les grappes de décodeurs doubles compensent efficacement la perte de performances, affichant même des gains de performances dans certaines charges de travail multithread. L'auteur conclut que la conception de grappes de décodeurs doubles du Zen 5 n'est pas la source principale d'instructions, mais agit comme un mécanisme secondaire, améliorant les performances dans les scénarios à IPC élevé et multithread, complétant le cache d'opérations pour un équilibre entre performances et consommation d'énergie.

Lire plus
Matériel Architecture CPU

Skymont d'Intel : Plongeon au cœur de l'architecture du cœur E

2025-01-18
Skymont d'Intel : Plongeon au cœur de l'architecture du cœur E

La dernière puce mobile d'Intel, Lunar Lake, intègre Skymont, une nouvelle architecture de cœur E remplaçant le Crestmont de Meteor Lake. Skymont améliore considérablement à la fois les performances multithread et la gestion des tâches d'arrière-plan à faible consommation. Cet article fournit une analyse approfondie de l'architecture de Skymont, couvrant la prédiction de branchements, la recherche et le décodage d'instructions, le moteur d'exécution hors d'ordre, l'exécution entière, l'exécution à virgule flottante et vectorielle, la charge/stockage et l'accès au cache et à la mémoire. Bien que Skymont excelle dans certains benchmarks, ses avantages par rapport aux cœurs Crestmont de Meteor Lake et aux cœurs Zen 5c d'AMD ne sont pas toujours évidents. Cela souligne le rôle crucial de l'architecture du cache dans les performances du CPU et les défis liés à la conception d'une seule architecture de cœur pour gérer les charges de travail multithread à faible consommation et hautes performances.

Lire plus
Matériel Cœur E

AMD Radeon Instinct MI300A : Plongez au cœur de son architecture APU massive

2025-01-18
AMD Radeon Instinct MI300A : Plongez au cœur de son architecture APU massive

L'AMD Radeon Instinct MI300A est une APU colossale intégrant 24 cœurs Zen 4 et 228 unités de calcul CDNA3. Cet article explore en profondeur son immense interconnexion Infinity Fabric, soulignant ses caractéristiques de haute bande passante et de faible latence, ainsi que le partage efficace des données entre le CPU et le GPU. Bien que son sous-système mémoire haute bande passante soit excellent pour le GPU, il impacte la latence du CPU, ce qui se traduit par des performances entières monofilaires comparables au Ryzen 9 3950X d'il y a quelques années. Malgré cela, la MI300A a connu un succès significatif en supercalcul, notamment en alimentant le système El Capitan du LLNL et en occupant la première place du classement TOP500.

Lire plus
Matériel

Le processeur Monaka de Fujitsu : ARMv9, SVE2 et empilement 3D

2024-12-14
Le processeur Monaka de Fujitsu : ARMv9, SVE2 et empilement 3D

Fujitsu s'apprête à lancer Monaka, un nouveau processeur pour les centres de données dont la sortie est prévue pour 2027. Monaka utilise l'architecture ARMv9, les extensions SVE2 et l'empilement 3D, similaire à l'architecture AMD EPYC avec une puce IO centrale et des unités SRAM et de calcul désagrégées. Chaque processeur Monaka comportera jusqu'à 144 cœurs répartis sur quatre chipsets de 36 cœurs, le tout fabriqué selon un processus de 2 nm. L'E/S offre 12 canaux de mémoire DDR5 (potentiellement dépassant 600 Go/s de bande passante), PCIe 6.0 avec prise en charge CXL 3.0 et un refroidissement par air. Contrairement à son prédécesseur, A64FX, Monaka omet la prise en charge HBM et se concentre sur le marché général des centres de données.

Lire plus
Matériel Empilement 3D