ANEMLL: Acelerando LLMs en el Neural Engine de Apple

2025-05-03
ANEMLL: Acelerando LLMs en el Neural Engine de Apple

ANEMLL es un proyecto de código abierto centrado en acelerar los Modelos de Lenguaje Grandes (LLMs) para procesadores de tensor, comenzando con el Apple Neural Engine (ANE). Proporciona una canalización de código abierto completa, desde la conversión del modelo (desde Hugging Face) hasta la inferencia en ANE, permitiendo una inferencia perfecta en el dispositivo para aplicaciones de borde de baja potencia, maximizando la privacidad y la seguridad. Actualmente admite modelos como LLaMA 3.1, y ofrece ejemplos de código Swift y Python, junto con aplicaciones iOS/macOS. Esta es una versión alfa, por lo que se esperan mejoras en la cuantización.

Desarrollo