Webtagr - Resumen de noticias de tecnología

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

Megakernels: Rompiendo la Latencia de Inferencia LLM

2025-05-28

Para aumentar la velocidad de los modelos de lenguaje grandes (LLM) en aplicaciones de baja latencia, como los chatbots, los investigadores desarrollaron una técnica de 'megakernel'. Esto fusiona el pase directo de un modelo Llama-1B en un solo kernel, eliminando la sobrecarga de los límites del kernel y los atascos de la canalización de memoria inherentes a los enfoques tradicionales de múltiples kernels. Los resultados muestran mejoras significativas en la velocidad en las GPU H100 y B200, superando a los sistemas existentes en más de 1,5 veces y logrando una latencia drásticamente menor.

(hazyresearch.stanford.edu)

IA inferencia de baja latencia