tiny-llm: LLM-Serving in einer Woche – Ein praktisches Tutorial
tiny-llm ist ein Tutorial, das Sie durch den Aufbau einer LLM-Serving-Infrastruktur in einer Woche führt. Es konzentriert sich auf die Verwendung der Array/Matrix-APIs von MLX, wobei höherwertige neuronale Netzwerk-APIs vermieden werden, um von Grund auf zu bauen und Optimierungen zu verstehen. Das Tutorial behandelt wichtige Konzepte wie Aufmerksamkeitsmechanismen, RoPE und gruppierte Query-Attention und schreitet zum Laden des Modells und zur Generierung von Antworten fort. Derzeit sind Aufmerksamkeit, RoPE und das Laden des Modells abgeschlossen. Zukünftige Kapitel werden sich mit KV-Caching, quantisierter Matrixmultiplikation, Flash Attention und anderen Optimierungen befassen, mit dem Ziel eines effizienten LLM-Servings für Modelle wie Qwen2.