FastVLM d'Apple : Un modèle de langage visuel ultra-rapide

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

FastVLM d'Apple : Un modèle de langage visuel ultra-rapide

2025-07-24

Les chercheurs d'Apple ML ont dévoilé FastVLM, un nouveau modèle de langage visuel (VLM), au CVPR 2025. En s'attaquant au compromis entre précision et efficacité inhérent aux VLM, FastVLM utilise un encodeur de vision à architecture hybride, FastViTHD, conçu pour les images haute résolution. Cela se traduit par un VLM significativement plus rapide et plus précis que les modèles comparables, permettant des applications en temps réel sur les appareils et une IA préservant la vie privée. FastViTHD génère moins de jetons visuels, mais de meilleure qualité, accélérant le préremplissage du LLM. Une application de démonstration iOS/macOS met en évidence les capacités de FastVLM sur les appareils.

(machinelearning.apple.com)

IA Modèle de langage visuel Images haute résolution Efficacité de l'IA

Détox numérique : un mois sans réseaux sociaux

OpenStreetMap lance des tuiles vectorielles