llm-d: Un marco de inferencia distribuida de LLM nativo de Kubernetes

2025-05-20

llm-d es un marco de inferencia distribuida de modelos de lenguaje grandes (LLM) nativo de Kubernetes, de alto rendimiento, que ofrece una vía simplificada para servir LLM a escala. Se caracteriza por el tiempo más rápido para obtener valor y un rendimiento competitivo por dólar para la mayoría de los modelos en la mayoría de los aceleradores de hardware. Utilizando optimizaciones de inferencia distribuida de vanguardia, como enrutamiento con conocimiento de caché KV y servicio desagregado, codiseñado e integrado con herramientas operacionales de Kubernetes en Inference Gateway (IGW), llm-d permite a los usuarios operar implementaciones de IA generativa con una solución de servicio modular, de alto rendimiento y de extremo a extremo. A diferencia de los enfoques de escalamiento tradicionales, llm-d está optimizado para las características únicas de la inferencia de LLM, como las solicitudes lentas, no uniformes y costosas, logrando un rendimiento superior. Mediante el enrutamiento con conocimiento de caché, la desagregación de tareas y el escalamiento adaptable, llm-d mejora significativamente el rendimiento y la eficiencia, reduce la latencia y admite diversos requisitos de calidad de servicio.

Desarrollo Inferencia LLM