FastVLM d'Apple : Un modèle de langage visuel ultra-rapide

2025-07-24
FastVLM d'Apple : Un modèle de langage visuel ultra-rapide

Les chercheurs d'Apple ML ont dévoilé FastVLM, un nouveau modèle de langage visuel (VLM), au CVPR 2025. En s'attaquant au compromis entre précision et efficacité inhérent aux VLM, FastVLM utilise un encodeur de vision à architecture hybride, FastViTHD, conçu pour les images haute résolution. Cela se traduit par un VLM significativement plus rapide et plus précis que les modèles comparables, permettant des applications en temps réel sur les appareils et une IA préservant la vie privée. FastViTHD génère moins de jetons visuels, mais de meilleure qualité, accélérant le préremplissage du LLM. Une application de démonstration iOS/macOS met en évidence les capacités de FastVLM sur les appareils.

Lire plus

Apple dévoile de nouveaux modèles linguistiques fondamentaux multilingues et multimodaux

2025-07-18
Apple dévoile de nouveaux modèles linguistiques fondamentaux multilingues et multimodaux

Apple a présenté deux nouveaux modèles linguistiques fondamentaux multilingues et multimodaux qui alimentent les fonctionnalités d'intelligence sur ses appareils et serveurs. Un modèle embarqué d'environ 3 milliards de paramètres, optimisé pour la puce Apple Silicon, et un modèle serveur évolutif basé sur un nouveau transformateur Parallel-Track Mixture-of-Experts (PT-MoE). Les deux ont été entraînés sur des ensembles de données multilingues et multimodales massifs, affinés par apprentissage supervisé et par renforcement. Ils prennent en charge davantage de langues, la compréhension d'images et les appels d'outils, égalant ou surpassant les modèles open source comparables. Un nouveau framework centré sur Swift simplifie l'intégration pour les développeurs.

Lire plus

TarFlow : Les flux normalisateurs basés sur les Transformers atteignent l’état de l’art en estimation de vraisemblance d’images

2025-06-28
TarFlow : Les flux normalisateurs basés sur les Transformers atteignent l’état de l’art en estimation de vraisemblance d’images

Les chercheurs présentent TarFlow, un nouveau modèle de flux normalisateur qui exploite les Transformers et les flux autorégressifs masqués. TarFlow estime la densité et génère des images efficacement en traitant des patchs d’images avec des blocs de Transformer autorégressifs, en alternant la direction de l’autorégression entre les couches. Trois techniques clés améliorent la qualité des échantillons : l’augmentation du bruit gaussien pendant l’entraînement, une procédure de débruitage après l’entraînement et une méthode de guidage efficace pour les configurations conditionnelles et inconditionnelles de classes. TarFlow obtient des résultats de pointe en estimation de vraisemblance d’images, surpassant largement les méthodes précédentes et générant des échantillons d’une qualité et d’une diversité comparables aux modèles de diffusion, pour la première fois avec un modèle de flux normalisateur autonome.

Lire plus

Modèles de raisonnement à grande échelle : effondrement et mise à l’échelle contre-intuitive

2025-06-08
Modèles de raisonnement à grande échelle : effondrement et mise à l’échelle contre-intuitive

Les modèles linguistiques de grande taille (LLM) récents ont donné naissance à des modèles de raisonnement à grande échelle (LRM), qui génèrent des traces de raisonnement détaillées avant de fournir des réponses. Bien qu’ils montrent des améliorations sur les benchmarks de raisonnement, leurs capacités fondamentales restent mal comprises. Ce travail étudie les LRM à l’aide d’environnements de casse-tête contrôlables, révélant un effondrement complet de la précision au-delà d’un certain seuil de complexité. Étonnamment, l’effort de raisonnement augmente avec la complexité, puis diminue malgré un budget de jetons suffisant. Comparés aux LLM standard, trois régimes ont émergé : (1) les tâches de faible complexité où les LLM standard surpassent les LRM, (2) les tâches de complexité moyenne où les LRM montrent un avantage, et (3) les tâches de haute complexité où les deux échouent. Les LRM présentent des limitations dans le calcul exact, ne parvenant pas à utiliser des algorithmes explicites et raisonnant de manière incohérente. Cette étude met en lumière les forces, les limites et les questions cruciales concernant les véritables capacités de raisonnement des LRM.

Lire plus
IA

L'approche d'Apple pour l'amélioration de l'IA tout en préservant la vie privée

2025-04-14
L'approche d'Apple pour l'amélioration de l'IA tout en préservant la vie privée

Apple s'engage pour la confidentialité des utilisateurs, même lorsqu'elle améliore ses fonctionnalités d'IA telles que Genmoji, les outils de génération d'images et les outils d'écriture. Elle utilise la confidentialité différentielle, en anonymisant les données des utilisateurs pour ne collecter que des informations de tendance agrégées, telles que les invites populaires de Genmoji. Pour les fonctionnalités d'IA traitant des textes plus longs, comme les e-mails, Apple utilise des données synthétiques. Cela génère des données synthétiques imitant les schémas de données réelles des utilisateurs pour l'entraînement et les tests de modèles sans accéder au contenu réel des e-mails. Cela permet à Apple d'améliorer les expériences produit tout en garantissant que la confidentialité des utilisateurs reste primordiale.

Lire plus

La nouvelle percée d'Apple en IA : contrôle précis des modèles génératifs avec le transport d'activation (AcT)

2025-04-10
La nouvelle percée d'Apple en IA : contrôle précis des modèles génératifs avec le transport d'activation (AcT)

Des chercheurs en apprentissage automatique d'Apple ont développé le Transport d'activation (AcT), une nouvelle technique offrant un contrôle précis des grands modèles génératifs, notamment les LLM et les modèles de diffusion texte-image, sans l'entraînement coûteux du RLHF ou de l'ajustement fin. L'AcT dirige les activations du modèle à l'aide de la théorie du transport optimal, obtenant un contrôle agnostique de la modalité avec une surcharge de calcul minimale. Les expériences montrent des améliorations significatives de la mitigation de la toxicité, de l'induction de la véracité dans les LLM et du contrôle du style dans la génération d'images. L'AcT ouvre la voie à des modèles génératifs plus sûrs et plus fiables.

Lire plus

SeedLM : Une nouvelle méthode de compression des poids LLM utilisant des générateurs de nombres pseudo-aléatoires

2025-04-06
SeedLM : Une nouvelle méthode de compression des poids LLM utilisant des générateurs de nombres pseudo-aléatoires

Les grands modèles de langage (LLM) sont entravés par des coûts d'exécution élevés, limitant leur déploiement généralisé. Des chercheurs de Meta présentent SeedLM, une nouvelle méthode de compression post-entraînement utilisant des graines d'un générateur de nombres pseudo-aléatoires pour coder et compresser les poids des modèles. Pendant l'inférence, SeedLM utilise un registre à décalage à rétroaction linéaire (LFSR) pour générer efficacement une matrice aléatoire, combinée linéairement avec des coefficients compressés pour reconstruire des blocs de poids. Cela réduit l'accès à la mémoire et exploite les cycles de calcul inactifs, accélérant les tâches liées à la mémoire en échangeant du calcul contre moins d'accès à la mémoire. Contrairement aux méthodes de pointe qui nécessitent des données d'étalonnage, SeedLM est sans données et se généralise bien à diverses tâches. Des expériences sur le modèle Llama 3 70B, particulièrement difficile, montrent une précision zéro-shot à 4 et 3 bits de compression égale ou supérieure aux méthodes de pointe, tout en maintenant des performances comparables aux références FP16. Des tests FPGA montrent que SeedLM à 4 bits approche une accélération de 4x par rapport à une référence FP16 Llama 2/3 lorsque la taille du modèle augmente.

Lire plus
IA