一周构建LLM服务:tiny-llm项目详解

2025-04-28
一周构建LLM服务:tiny-llm项目详解

tiny-llm项目是一个教你在一周内搭建LLM服务的教程,它专注于使用MLX的数组/矩阵API从零开始构建模型服务基础设施,而非依赖高级神经网络API。教程涵盖了注意力机制、RoPE、分组查询注意力等核心概念,并逐步实现模型加载和响应生成。目前已完成注意力机制、RoPE、以及模型加载等部分,后续章节将深入KV缓存、量化矩阵乘法和Flash Attention等优化技术,最终目标是构建一个高效的LLM服务,支持Qwen2等模型。

开发 模型服务 MLX