ANEMLL: Acelerando LLMs no Neural Engine da Apple
2025-05-03
ANEMLL é um projeto de código aberto focado em acelerar modelos de linguagem grandes (LLMs) para processadores de tensor, começando com o Apple Neural Engine (ANE). Ele fornece um pipeline de código aberto completo, da conversão do modelo (a partir do Hugging Face) à inferência no ANE, permitindo inferência perfeita no dispositivo para aplicativos de borda de baixa potência, maximizando a privacidade e a segurança. Atualmente suporta modelos como LLaMA 3.1, e oferece exemplos de código Swift e Python, juntamente com aplicativos iOS/macOS. Esta é uma versão alfa, portanto, espere melhorias na quantização.
Desenvolvimento