tiny-llm: 일주일 만에 LLM 서빙 - 실습형 튜토리얼
2025-04-28
tiny-llm은 일주일 안에 LLM 서빙 인프라를 구축하는 방법을 안내하는 튜토리얼입니다. 고수준의 신경망 API 대신 MLX의 배열/행렬 API에 초점을 맞춰 처음부터 구축하고 최적화를 이해하는 데 중점을 둡니다. 이 튜토리얼은 어텐션 메커니즘, RoPE, 그룹화된 쿼리 어텐션 등의 핵심 개념을 다루고 모델 로드 및 응답 생성으로 진행됩니다. 현재 어텐션, RoPE, 모델 로드는 완료되었습니다. 향후 장에서는 KV 캐싱, 양자화된 행렬 곱셈, Flash Attention 등의 최적화 기술을 심층적으로 다루고 Qwen2와 같은 모델을 위한 효율적인 LLM 서빙을 목표로 합니다.
개발
모델 서빙