FastVLM: Effiziente visuelle Kodierung für visuelle Sprachmodelle

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

FastVLM: Effiziente visuelle Kodierung für visuelle Sprachmodelle

2025-05-13

FastVLM präsentiert einen neuartigen hybriden visuellen Kodierer, der die Kodierungszeit und die Anzahl der generierten Token für hochauflösende Bilder drastisch reduziert. Selbst die kleinste Variante ist 85-mal schneller in Bezug auf die Time-to-First-Token (TTFT) und verfügt über einen 3,4-mal kleineren visuellen Kodierer als LLaVA-OneVision-0.5B. Größere Varianten, gepaart mit dem Qwen2-7B LLM, übertreffen aktuelle Modelle wie Cambrian-1-8B und erreichen eine 7,9-mal schnellere TTFT. Eine Demo-iOS-App zeigt die mobile Leistung. Das Projekt bietet detaillierte Anweisungen für die Inferenz und unterstützt Apple Silicon und Apple-Geräte.

(github.com)

KI Visuelles Sprachmodell Effiziente Kodierung

Examine.com 404-Fehler: Seite nicht gefunden

P-Hacking: Die heimliche Bedrohung für die wissenschaftliche Integrität