FastVLM: 시각 언어 모델을 위한 효율적인 비전 인코딩

2025-05-13
FastVLM: 시각 언어 모델을 위한 효율적인 비전 인코딩

FastVLM은 고해상도 이미지의 인코딩 시간을 크게 줄이고 출력 토큰 수를 줄이는 새로운 하이브리드 비전 인코더입니다. 가장 작은 변형조차도 LLaVA-OneVision-0.5B에 비해 Time-to-First-Token(TTFT)이 85배 빠르고 비전 인코더 크기가 3.4배 작습니다. Qwen2-7B LLM과 결합된 더 큰 변형은 Cambrian-1-8B와 같은 최신 모델을 능가하며 TTFT가 7.9배 빨라집니다. 데모 iOS 앱은 모바일 장치에서의 성능을 보여줍니다. 이 프로젝트는 추론에 대한 자세한 지침을 제공하며 Apple Silicon 및 Apple 장치를 지원합니다.