tiny-llm: 1週間でLLMサービング - 実践的なチュートリアル
2025-04-28
tiny-llmは、1週間でLLMサービングインフラストラクチャを構築する方法を説明するチュートリアルです。高レベルのニューラルネットワークAPIではなく、MLXの配列/行列APIに焦点を当て、ゼロから構築し、最適化を理解することに重点を置いています。このチュートリアルは、アテンションメカニズム、RoPE、グループ化されたクエリアテンションなどのコアコンセプトを網羅し、モデルのロードとレスポンスの生成へと進みます。現在、アテンション、RoPE、モデルのロードは完了しています。今後の章では、KVキャッシュ、量子化された行列乗算、Flash Attentionなどの最適化技術を深く掘り下げ、Qwen2などのモデルに対応する効率的なLLMサービングを目指します。
開発
モデルサービング