FastVLM: Effiziente visuelle Kodierung für visuelle Sprachmodelle

2025-05-13
FastVLM: Effiziente visuelle Kodierung für visuelle Sprachmodelle

FastVLM präsentiert einen neuartigen hybriden visuellen Kodierer, der die Kodierungszeit und die Anzahl der generierten Token für hochauflösende Bilder drastisch reduziert. Selbst die kleinste Variante ist 85-mal schneller in Bezug auf die Time-to-First-Token (TTFT) und verfügt über einen 3,4-mal kleineren visuellen Kodierer als LLaVA-OneVision-0.5B. Größere Varianten, gepaart mit dem Qwen2-7B LLM, übertreffen aktuelle Modelle wie Cambrian-1-8B und erreichen eine 7,9-mal schnellere TTFT. Eine Demo-iOS-App zeigt die mobile Leistung. Das Projekt bietet detaillierte Anweisungen für die Inferenz und unterstützt Apple Silicon und Apple-Geräte.