tiny-llm: Servir LLMs en una semana - Un tutorial práctico

2025-04-28
tiny-llm: Servir LLMs en una semana - Un tutorial práctico

tiny-llm es un tutorial que te guía en la construcción de una infraestructura de servicio LLM en una semana. Se centra en el uso de las APIs de matriz/array de MLX, evitando las APIs de red neuronal de alto nivel para construir desde cero y comprender las optimizaciones. El tutorial cubre conceptos esenciales como los mecanismos de atención, RoPE y la atención de consulta agrupada, progresando hacia la carga del modelo y la generación de respuestas. Actualmente, la atención, RoPE y la carga del modelo están completos. Los capítulos futuros tratarán el almacenamiento en caché KV, la multiplicación de matrices cuantizadas, Flash Attention y otras optimizaciones, con el objetivo de un servicio LLM eficiente para modelos como Qwen2.

Desarrollo Servicio de Modelo