ANEMLL: Beschleunigung von LLMs auf Apples Neural Engine
2025-05-03
ANEMLL ist ein Open-Source-Projekt, das sich auf die Beschleunigung großer Sprachmodelle (LLMs) auf Tensorprozessoren konzentriert, beginnend mit Apples Neural Engine (ANE). Es bietet eine vollständige Open-Source-Pipeline von der Modellkonvertierung (von Hugging Face) zur Inferenz auf ANE, wodurch eine nahtlose On-Device-Inferenz für stromsparende Edge-Anwendungen ermöglicht wird und Datenschutz und Sicherheit maximiert werden. Derzeit werden Modelle wie LLaMA 3.1 unterstützt, und es werden Swift- und Python-Beispielcodes sowie iOS/macOS-Anwendungen bereitgestellt. Dies ist eine Alpha-Version, daher sind Verbesserungen bei der Quantisierung zu erwarten.
Entwicklung
Apples Neural Engine