Hot Chips 2025: Innovaciones en refrigeración líquida para el auge de la IA

2025-09-05
Hot Chips 2025: Innovaciones en refrigeración líquida para el auge de la IA

Hot Chips 2025 presentó tecnologías avanzadas de refrigeración líquida adaptadas para chips de IA. Los proveedores exhibieron varias placas frías basadas en microchorros capaces de enfriar con precisión los puntos críticos de los chips, incluso inyectando agua directamente en el dado. Si bien actualmente se centra en aplicaciones de servidor, el control preciso de la temperatura ofrece beneficios potenciales para el hardware de consumo en el futuro. La exposición también presentó placas frías en diferentes materiales, como aluminio ligero y cobre altamente eficiente, atendiendo a las diversas necesidades de peso y refrigeración de los servidores. Ante el aumento constante del consumo de energía y la disipación de calor de los chips de IA, estas innovaciones en refrigeración líquida se están convirtiendo en soluciones cruciales para la refrigeración de centros de datos.

Leer más
Hardware

Condor presenta Cuzco: Un núcleo RISC-V de alto rendimiento con un enfoque innovador

2025-08-30
Condor presenta Cuzco: Un núcleo RISC-V de alto rendimiento con un enfoque innovador

Condor Computing, subsidiaria de Andes Technology, presentó su núcleo RISC-V de alto rendimiento, Cuzco, en Hot Chips 2025. Cuzco cuenta con un motor de ejecución fuera de orden de 8 vías, un predictor de ramas moderno y un esquema de programación basado en tiempo innovador, colocándolo al mismo nivel que el P870 de SiFive y el V1 de Veyron. Su enfoque único utiliza principalmente la programación estática en el back-end para eficiencia energética y complejidad reducida, sin requerir cambios de ISA o ajustes del compilador para un rendimiento óptimo. Cuzco es altamente configurable, permitiendo la personalización para satisfacer las diversas necesidades de los clientes, y admite clústeres multinúcleo.

Leer más
Hardware

Enfriamiento por líquido a escala de centro de datos de Google: una revolución para la IA

2025-08-26
Enfriamiento por líquido a escala de centro de datos de Google: una revolución para la IA

El auge de la IA ha creado un desafío significativo de calor para los centros de datos. En Hot Chips 2025, Google presentó su sistema masivo de enfriamiento por líquido diseñado para sus TPU. Este sistema utiliza CDU (Unidades de Distribución de Refrigerante) para el enfriamiento a nivel de rack, reduciendo significativamente el consumo de energía en comparación con el enfriamiento por aire y garantizando la estabilidad del sistema mediante la redundancia. Google también emplea un diseño de matriz desnuda, similar al 'de-lidding' de los entusiastas de PC, para mejorar la eficiencia de transferencia de calor de su TPUv4. Esta solución no solo aborda las inmensas demandas de enfriamiento de la IA, sino que también apunta hacia una nueva dirección para las futuras soluciones de enfriamiento de centros de datos.

Leer más

Intel Lion Cove: Análisis profundo del rendimiento en juegos

2025-07-07
Intel Lion Cove: Análisis profundo del rendimiento en juegos

La última arquitectura de CPU de alto rendimiento de Intel, Lion Cove, destaca en los benchmarks SPEC CPU2017 e incluso rivaliza con AMD Zen 5. Sin embargo, las cargas de trabajo de los juegos difieren significativamente de las tareas de productividad. Este artículo profundiza en el rendimiento de Lion Cove en juegos, analizando datos detallados sobre la jerarquía de caché, la latencia de ejecución de instrucciones, la predicción de saltos y más. Revela las fortalezas y debilidades de Lion Cove en escenarios de juegos y lo compara con Zen 4. Los resultados muestran un front-end sólido, pero un cuello de botella en la latencia de memoria del back-end, dejando espacio para mejorar el rendimiento en juegos.

Leer más

Nvidia Blackwell: Un Coloso del Cálculo, ¿Pero a Qué Precio?

2025-06-29
Nvidia Blackwell: Un Coloso del Cálculo, ¿Pero a Qué Precio?

La última arquitectura Blackwell de Nvidia, ejemplificada por la RTX PRO 6000, presenta un gigantesco chip GB202 (750 mm², 92.200 millones de transistores) y unas impresionantes 188 unidades SM, ofreciendo un rendimiento de computación inigualable. Un análisis profundo de su microarquitectura revela detalles sobre la caché de instrucciones, las unidades de ejecución y los subsistemas de memoria, comparándolo con la arquitectura RDNA4 de AMD. Aunque Blackwell presenta algunas imperfecciones, como el rendimiento de la caché L2 y la eficiencia por unidad, su pura escala eclipsa a la competencia, convirtiéndola en la GPU de consumo más grande disponible. Esta ambición, sin embargo, tiene un precio, incluido el consumo de energía (600 W) y la latencia de L2. El artículo concluye con una perspectiva sobre el panorama futuro de las GPU.

Leer más
Hardware

Profundizando en el AMD Instinct MI350: Acelerador de IA basado en GCN

2025-06-20
Profundizando en el AMD Instinct MI350: Acelerador de IA basado en GCN

En una entrevista, Alan Smith, arquitecto jefe de Instinct de AMD, profundizó en los detalles de los nuevos aceleradores de IA de la serie MI350, basados en la arquitectura GFX9. Si bien el MI350 conserva la arquitectura GFX9, se logran mejoras significativas en el rendimiento mediante el aumento de la capacidad de LDS (160 KB) y el ancho de banda, junto con la introducción de formatos de microescala que admiten tipos de datos FP8, FP6 y FP4. Cabe destacar que el FP6 y el FP4 del MI350 tienen el mismo rendimiento, lo que refleja la confianza de AMD en el potencial del FP6 tanto para entrenamiento como para inferencia. Además, el MI350 omite la aceleración de hardware TF32 en favor del BF16 optimizado, ofreciendo emulación de software para admitir TF32. Construido con chips de computación de proceso N3P y chips de E/S de proceso N6, el MI350 optimiza el diseño y reduce las unidades de computación para lograr un alto rendimiento al tiempo que reduce el consumo de energía.

Leer más
Hardware

Arquitectura AMD CDNA 4: Equilibrando operaciones de matriz y vector

2025-06-17
Arquitectura AMD CDNA 4: Equilibrando operaciones de matriz y vector

AMD presenta su última arquitectura de GPU orientada a la computación, CDNA 4, una actualización modesta sobre CDNA 3. El enfoque está en aumentar el rendimiento de la multiplicación de matrices con tipos de datos de baja precisión, cruciales para el aprendizaje automático. Simultáneamente, CDNA 4 busca mantener el liderazgo de AMD en las operaciones vectoriales. Utilizando un diseño multi-chiplet similar al de CDNA 3 y aumentando las velocidades de reloj, CDNA 4 mejora la capacidad y el ancho de banda del Compartido de Datos Local (LDS), introduciendo instrucciones LDS de lectura con transposición para optimizar la multiplicación de matrices. Si bien se queda atrás de la arquitectura Blackwell de Nvidia en las operaciones de matriz de baja precisión, CDNA 4 mantiene una ventaja significativa en las operaciones vectoriales y los tipos de datos de alta precisión debido a su mayor recuento de núcleos y velocidades de reloj.

Leer más
Hardware

La Interconexión Comprimidada de AMD Trinity: Una Década de Integración de iGPU

2025-06-17
La Interconexión Comprimidada de AMD Trinity: Una Década de Integración de iGPU

Este artículo profundiza en la arquitectura de interconexión de memoria de la APU AMD Trinity (lanzada en 2012). A diferencia del posterior Infinity Fabric, Trinity utiliza dos enlaces distintos, "Onion" y "Garlic", para conectar la CPU y la iGPU. "Onion" garantiza la coherencia de caché pero tiene un ancho de banda limitado, mientras que "Garlic" ofrece un ancho de banda alto pero carece de coherencia. Este diseño refleja un compromiso basado en la arquitectura Athlon 64 de la época, lo que resulta en penalizaciones de rendimiento cuando la CPU y la GPU acceden a la memoria de la otra. Si bien ofrece un rendimiento adecuado para cargas de trabajo gráficas como los juegos, la arquitectura de Trinity carece de la elegancia y eficiencia de las iGPU integradas Intel Sandy Bridge/Ivy Bridge. El autor utiliza pruebas y análisis de datos para detallar la funcionalidad, ventajas y desventajas de ambos enlaces, demostrando el uso del ancho de banda de memoria de Trinity con varios juegos y programas de procesamiento de imágenes.

Leer más
Hardware Interconexión

IBM Telum II: Un Procesador Mainframe Revolucionario y su Estrategia de Caché Virtual

2025-05-19
IBM Telum II: Un Procesador Mainframe Revolucionario y su Estrategia de Caché Virtual

El último procesador mainframe de IBM, Telum II, cuenta con ocho núcleos a 5,5 GHz y una enorme caché en chip de 360 MB, junto con una DPU y un acelerador de IA. Su característica más intrigante es su innovadora estrategia de caché virtual L3 y L4. Al utilizar inteligentemente métricas de saturación y políticas de reemplazo de caché, Telum II combina virtualmente múltiples cachés L2 en un enorme L3 y un L4 entre chips, lo que aumenta drásticamente el rendimiento de un solo hilo, manteniendo una latencia increíblemente baja incluso con hasta 32 procesadores trabajando juntos. Esta estrategia podría informar potencialmente los diseños futuros de CPU para clientes, pero quedan desafíos en superar las limitaciones de ancho de banda de interconexión entre chips.

Leer más
Hardware Caché Virtual

Zhaoxin Century Avenue: Una inmersión profunda en las ambiciones chinas de CPU x86

2025-04-30
Zhaoxin Century Avenue: Una inmersión profunda en las ambiciones chinas de CPU x86

La última CPU de Zhaoxin, la KX-7000, con la nueva arquitectura "Century Avenue", apunta a reducir la brecha de rendimiento con las CPU Intel de principios de la década de 2010. Si bien muestra avances con un núcleo más ancho de 4 vías y velocidades de reloj más altas, la KX-7000 se queda atrás en ancho de banda de caché, predicción de ramas y rendimiento del subsistema de memoria. El rendimiento de un solo hilo coincide aproximadamente con el AMD Bulldozer, superándolo en pruebas de punto flotante pero quedando corto en tareas multihilo contra Bulldozer e Intel Skylake. El artículo sugiere que la KX-7000 no está diseñada para competir directamente con AMD e Intel, sino para satisfacer la demanda china de CPU domésticas, destacando los desafíos técnicos y de recursos en la búsqueda del rendimiento.

Leer más
Hardware

Asignación dinámica de VGPR de RDNA 4: Rompiendo el cuello de botella del trazado de rayos

2025-04-05
Asignación dinámica de VGPR de RDNA 4: Rompiendo el cuello de botella del trazado de rayos

La arquitectura AMD RDNA 4 presenta un nuevo modo de asignación dinámica de VGPR (registros de propósito general vectoriales) para abordar la compensación entre el conteo de registros y la ocupación en el trazado de rayos. Las GPU tradicionales enfrentan limitaciones en el trazado de rayos, donde la asignación fija de registros por hilo restringe el paralelismo de hilos en etapas con altas demandas de registros. La asignación dinámica de RDNA 4 permite que los hilos ajusten los conteos de registros en tiempo de ejecución, aumentando la ocupación sin aumentar el tamaño del archivo de registros, lo que reduce la latencia y aumenta el rendimiento del trazado de rayos. Si bien este modo puede provocar interbloqueos, AMD lo mitiga con un modo de prevención de interbloqueos. Esta no es una solución universal, limitada a sombreadores de cómputo wave32, pero avanza significativamente las capacidades de trazado de rayos de AMD.

Leer más

AMD RDNA 4: Accesos de memoria fuera de orden y eliminación de dependencias falsas

2025-03-23
AMD RDNA 4: Accesos de memoria fuera de orden y eliminación de dependencias falsas

La arquitectura AMD RDNA 4 presenta mejoras significativas en el subsistema de memoria, abordando principalmente las dependencias falsas entre wavefronts presentes en RDNA 3 y arquitecturas anteriores. Anteriormente, un wavefront podía ser bloqueado por los accesos a la memoria de otro, afectando el rendimiento. RDNA 4 resuelve esto implementando nuevas colas fuera de orden, permitiendo que las solicitudes de diferentes shaders se atiendan fuera de orden. Este artículo detalla pruebas que verifican esta mejora y compara arquitecturas de GPU AMD, Intel y Nvidia en el manejo de dependencias de memoria entre wavefronts. Si bien no es totalmente nueva, las mejoras de RDNA 4 mejoran significativamente el rendimiento, particularmente en cargas de trabajo emergentes como el ray tracing.

Leer más

Inmersión en la Arquitectura Intel Xe3: Mejoras Significativas Apuntan al Mercado de Alto Rendimiento

2025-03-19
Inmersión en la Arquitectura Intel Xe3: Mejoras Significativas Apuntan al Mercado de Alto Rendimiento

Se han revelado detalles de la arquitectura de GPU Intel Xe3, con el desarrollo de software visible en varios repositorios de código abierto. La Xe3 cuenta con un potencial máximo de 256 núcleos Xe, significativamente más que su predecesora, admitiendo hasta 32.768 lanes FP32. Las mejoras incluyen 10 subprocesos simultáneos por XVE, asignación flexible de registros, aumento de tokens de marcador y una nueva instrucción gather-send. Además, la Xe3 introduce el Sub-Triangle Opacity Culling (STOC), que subdivide triángulos para reducir el trabajo de sombreado desperdiciado, mejorando el rendimiento del ray tracing. Estos avances acercan la arquitectura de Intel a las de AMD y Nvidia en términos de rendimiento y eficiencia, señalando la ambición de Intel en el mercado de GPU de alto rendimiento.

Leer más

Inmersión profunda en el rendimiento de trazado de rayos de Intel Battlemage

2025-03-16
Inmersión profunda en el rendimiento de trazado de rayos de Intel Battlemage

Este artículo profundiza en el rendimiento de trazado de rayos de la GPU Intel Arc B580 bajo la arquitectura Battlemage. Al analizar el trazado de caminos de Cyberpunk 2077 y el benchmark 3DMark Port Royal, revela mejoras en el Acelerador de Trazado de Rayos (RTA) de Battlemage, incluyendo una canalización de recorrido de rayos triplicada, una tasa de prueba de intersección de triángulos duplicada y una caché BVH de 16 KB. Si bien la alta ocupación en el trazado de caminos de Cyberpunk 2077 no se tradujo en una alta utilización de la unidad de ejecución, la caché y la arquitectura mejoradas destacaron en Port Royal. El artículo concluye que Battlemage muestra avances significativos en el trazado de rayos, pero el subsistema de memoria sigue siendo un cuello de botella en el rendimiento.

Leer más
Hardware Trazado de Rayos

AMD Strix Halo SoC: ¿Un Threadripper portátil?

2025-03-14
AMD Strix Halo SoC: ¿Un Threadripper portátil?

En la CES 2025, Mahesh Subramony, miembro senior de AMD, presentó el Strix Halo SoC, un procesador integrado innovador con CPU Zen 5 y una potente iGPU. A diferencia del Zen 5 para escritorio, el Strix Halo prioriza la eficiencia energética con una innovadora tecnología de interconexión die-to-die, reduciendo la latencia y aumentando la eficiencia. Una caché MALL de 32 MB amplifica principalmente el ancho de banda de la GPU; aunque inaccesible directamente por la CPU, su diseño permite futuras actualizaciones de software para expandir la funcionalidad. Destinado a ser una estación de trabajo móvil de alto rendimiento, el Strix Halo cuenta con una FPU completa de 512 bits y un rendimiento multihilo impresionante.

Leer más
Hardware

Zen 5: El elegante manejo de AMD del AVX-512 a altas frecuencias

2025-03-01
Zen 5: El elegante manejo de AMD del AVX-512 a altas frecuencias

Este artículo profundiza en el rendimiento de la arquitectura Zen 5 de AMD ejecutando instrucciones AVX-512 a altas frecuencias. A diferencia del Intel Skylake-X, que sufría de compensaciones de frecuencia fijas y largos períodos de transición, Zen 5 aprovecha sensores integrados mejorados y un reloj adaptativo para lograr un rendimiento completo de AVX-512 a su frecuencia máxima de 5,7 GHz. Las pruebas revelan que Zen 5 no experimenta caídas significativas de frecuencia al encontrar cargas de trabajo AVX-512; en cambio, emplea ajustes granulares de IPC (instrucciones por ciclo) según sea necesario para mantener un alto rendimiento. Este mecanismo de ajuste dinámico evita eficazmente las transiciones de frecuencia frecuentes, garantizando transiciones de rendimiento suaves entre cargas altas y bajas. Si bien pueden producirse caídas breves de IPC en condiciones extremas, en general, el soporte AVX-512 de Zen 5 es impresionante, superando significativamente las arquitecturas Intel anteriores.

Leer más
Hardware

Intel Battlemage: Análisis a fondo de la Arc B580 y sus desafíos

2025-02-11
Intel Battlemage: Análisis a fondo de la Arc B580 y sus desafíos

La nueva arquitectura de GPU Battlemage de Intel llega con la Arc B580, una tarjeta de gama media que apunta a revolucionar el mercado con 12 GB de VRAM a 250 dólares. Este artículo profundiza en las mejoras de Battlemage con respecto a Alchemist, incluyendo unidades Xe Vector más anchas, mecanismos de caché mejorados y acceso a la memoria optimizado. A pesar de especificaciones inferiores en teoría, la B580 supera sorprendentemente a su predecesora, la A770, en pruebas reales. Sin embargo, los problemas de controladores y la dependencia de Resizable BAR siguen siendo obstáculos que Intel debe superar.

Leer más
Hardware

El Xuantie C910 de Alibaba: Un núcleo RISC-V ambicioso, pero con fundamentos débiles

2025-02-04
El Xuantie C910 de Alibaba: Un núcleo RISC-V ambicioso, pero con fundamentos débiles

La división T-HEAD de Alibaba ha lanzado el Xuantie C910, un núcleo RISC-V de alto rendimiento que tiene como objetivo reducir la dependencia de chips extranjeros y proporcionar soluciones rentables para IoT y la computación de borde. Este análisis profundo examina la arquitectura del C910, incluyendo su motor de ejecución fuera de orden, el predictor de ramas y el sistema de caché, revelando las características de rendimiento a través de pruebas. Si bien sobresale en las extensiones vectoriales y el manejo de accesos no alineados, el C910 sufre de un motor fuera de orden desequilibrado con capacidad insuficiente del programador y del archivo de registros en relación con el tamaño de su ROB. Su sistema de caché débil limita aún más el rendimiento. A pesar de la ambición, el C910 necesita mejoras en el equilibrio entre la arquitectura del núcleo y el subsistema de memoria.

Leer más

Inmersión profunda en la microarquitectura SiFive P550: un paso ambicioso de RISC-V

2025-01-27
Inmersión profunda en la microarquitectura SiFive P550: un paso ambicioso de RISC-V

Este artículo se adentra en la microarquitectura SiFive P550, un núcleo de procesador RISC-V dirigido a aplicaciones de alto rendimiento. El P550 emplea una arquitectura de ejecución fuera de orden de tres vías con una canalización de 13 etapas, con el objetivo de lograr un 30% más de rendimiento en menos de la mitad del área de un Arm Cortex A75 comparable. El análisis compara el P550 con el Cortex A75, examinando la predicción de ramas, la búsqueda y decodificación de instrucciones, la ejecución fuera de orden y el subsistema de memoria. Si bien el P550 presenta debilidades en áreas como el acceso a memoria no alineado, representa un paso significativo para RISC-V. Aunque necesita mejoras adicionales, el P550 demuestra el progreso de SiFive hacia CPUs de propósito general de alto rendimiento.

Leer más

Desactivando la caché de operaciones del Zen 5: Una inmersión profunda en sus decodificadores agrupados

2025-01-24
Desactivando la caché de operaciones del Zen 5: Una inmersión profunda en sus decodificadores agrupados

Este artículo profundiza en el mecanismo de búsqueda y decodificación de instrucciones del procesador AMD Zen 5. El Zen 5 utiliza una arquitectura única de clúster de decodificadores duales, donde cada clúster atiende a una de las dos subprocesos SMT del núcleo. Normalmente, el Zen 5 se basa en una caché de operaciones de 6 KB para entregar instrucciones, y los decodificadores solo se activan en caso de fallo de caché. El autor desactiva la caché de operaciones, forzando a los decodificadores a manejar todas las instrucciones, para evaluar su rendimiento. Las pruebas revelan caídas significativas de rendimiento en el modo de subproceso único con la caché de operaciones desactivada; sin embargo, en el modo multisubproceso, los clústeres de decodificadores duales compensan eficazmente la pérdida de rendimiento, incluso mostrando ganancias de rendimiento en algunas cargas de trabajo multisubproceso. El autor concluye que el diseño de clúster de decodificadores duales del Zen 5 no es la fuente principal de instrucciones, sino que actúa como un mecanismo secundario, aumentando el rendimiento en escenarios de alto IPC y multisubproceso, complementando la caché de operaciones para lograr un equilibrio entre rendimiento y consumo de energía.

Leer más

Skymont de Intel: Una inmersión profunda en la arquitectura del núcleo E

2025-01-18
Skymont de Intel: Una inmersión profunda en la arquitectura del núcleo E

El último chip móvil de Intel, Lunar Lake, presenta Skymont, una nueva arquitectura de núcleo E que reemplaza a Crestmont en Meteor Lake. Skymont mejora significativamente tanto el rendimiento multihilo como el manejo de tareas en segundo plano de bajo consumo. Este artículo proporciona un análisis profundo de la arquitectura de Skymont, que abarca la predicción de ramas, la búsqueda y decodificación de instrucciones, el motor de ejecución fuera de orden, la ejecución de enteros, la ejecución de punto flotante y vectorial, la carga/almacenamiento y el acceso a la caché y la memoria. Si bien Skymont destaca en algunas pruebas de rendimiento, sus ventajas sobre los núcleos Crestmont de Meteor Lake y los núcleos Zen 5c de AMD no siempre son claras. Esto destaca el papel crucial de la arquitectura de caché en el rendimiento de la CPU y los desafíos de diseñar una única arquitectura de núcleo para manejar cargas de trabajo multihilo de bajo consumo y alto rendimiento.

Leer más
Hardware

AMD Radeon Instinct MI300A: Una inmersión profunda en su arquitectura masiva de APU

2025-01-18
AMD Radeon Instinct MI300A: Una inmersión profunda en su arquitectura masiva de APU

La AMD Radeon Instinct MI300A es una APU colosal que integra 24 núcleos Zen 4 y 228 unidades de cómputo CDNA3. Este artículo profundiza en su enorme interconexión Infinity Fabric, destacando sus características de alto ancho de banda y baja latencia, y el intercambio eficiente de datos entre la CPU y la GPU. Si bien su subsistema de memoria de alto ancho de banda es excelente para la GPU, afecta la latencia de la CPU, lo que resulta en un rendimiento de enteros de un solo hilo comparable al Ryzen 9 3950X de hace unos años. A pesar de esto, la MI300A ha logrado un éxito significativo en la supercomputación, impulsando notablemente el sistema El Capitan de LLNL y encabezando la lista TOP500.

Leer más
Hardware

CPU Monaka de Fujitsu: ARMv9, SVE2 y Chips con Apilamiento 3D

2024-12-14
CPU Monaka de Fujitsu: ARMv9, SVE2 y Chips con Apilamiento 3D

Fujitsu está a punto de lanzar Monaka, una nueva CPU para centros de datos cuyo lanzamiento está previsto para 2027. Monaka utiliza la arquitectura ARMv9, extensiones SVE2 y apilamiento 3D, similar a la arquitectura AMD EPYC con un chip IO central y unidades de SRAM y cómputo desagregadas. Cada CPU Monaka tendrá hasta 144 núcleos distribuidos en cuatro chipsets de 36 núcleos, todos construidos en un proceso de 2 nm. La E/S ofrece 12 canales de memoria DDR5 (potencialmente superando los 600 GB/s de ancho de banda), PCIe 6.0 con soporte CXL 3.0 y refrigeración por aire. A diferencia de su predecesora, A64FX, Monaka omite el soporte HBM y se centra en el mercado general de centros de datos.

Leer más
Hardware Apilamiento 3D