FastVLM: Effiziente visuelle Kodierung für visuelle Sprachmodelle
2025-05-13
FastVLM präsentiert einen neuartigen hybriden visuellen Kodierer, der die Kodierungszeit und die Anzahl der generierten Token für hochauflösende Bilder drastisch reduziert. Selbst die kleinste Variante ist 85-mal schneller in Bezug auf die Time-to-First-Token (TTFT) und verfügt über einen 3,4-mal kleineren visuellen Kodierer als LLaVA-OneVision-0.5B. Größere Varianten, gepaart mit dem Qwen2-7B LLM, übertreffen aktuelle Modelle wie Cambrian-1-8B und erreichen eine 7,9-mal schnellere TTFT. Eine Demo-iOS-App zeigt die mobile Leistung. Das Projekt bietet detaillierte Anweisungen für die Inferenz und unterstützt Apple Silicon und Apple-Geräte.