Apple défie les modèles de diffusion : une percée dans la génération d’images avec les flux normalisateurs

2025-06-27
Apple défie les modèles de diffusion : une percée dans la génération d’images avec les flux normalisateurs

Apple a publié deux articles présentant le potentiel d’une technique oubliée de génération d’images : les flux normalisateurs. Ses nouveaux modèles, TarFlow et STARFlow, utilisent des Transformers pour réaliser des progrès significatifs en termes de qualité et d’efficacité d’image. Contrairement à GPT-4o d’OpenAI, qui génère des images jeton par jeton, les modèles d’Apple génèrent des valeurs de pixels directement ou par un processus de compression-décompression, évitant ainsi la perte d’informations due à la tokenisation et offrant un meilleur contrôle des détails de l’image. STARFlow va plus loin en utilisant la génération d’espace latent et en intégrant un modèle linguistique léger, ce qui le rend plus adapté aux appareils mobiles. Cela marque une nouvelle direction dans la génération d’images, remettant en question la domination des modèles de diffusion.