tiny-llm: Servindo LLMs em uma Semana - Um Tutorial Prático
2025-04-28
tiny-llm é um tutorial que o guia na construção de uma infraestrutura de serviço LLM em uma semana. Ele se concentra no uso das APIs de matriz/array do MLX, evitando APIs de rede neural de alto nível para construir do zero e entender as otimizações. O tutorial abrange conceitos essenciais como mecanismos de atenção, RoPE e atenção de consulta agrupada, progredindo para o carregamento do modelo e a geração de respostas. Atualmente, atenção, RoPE e carregamento do modelo estão completos. Capítulos futuros abordarão o armazenamento em cache KV, multiplicação de matrizes quantizadas, Flash Attention e outras otimizações, visando um serviço LLM eficiente para modelos como Qwen2.
Desenvolvimento
Serviço de Modelo