ANEMLL : Accélération des LLMs sur le Neural Engine d'Apple

2025-05-03
ANEMLL : Accélération des LLMs sur le Neural Engine d'Apple

ANEMLL est un projet open source axé sur l'accélération des grands modèles de langage (LLM) sur les processeurs tensoriels, en commençant par le Neural Engine d'Apple (ANE). Il fournit un pipeline open source complet, de la conversion du modèle (à partir de Hugging Face) à l'inférence sur ANE, permettant une inférence transparente sur l'appareil pour les applications de faible puissance en périphérie, maximisant ainsi la confidentialité et la sécurité. Il prend actuellement en charge des modèles tels que LLaMA 3.1 et propose des exemples de code Swift et Python, ainsi que des applications iOS/macOS. Il s'agit d'une version alpha, donc des améliorations de la quantification sont attendues.

Développement Neural Engine Apple