Metas Byte Latent Transformer (BLT): Übertrifft Token-basierte LLMs
2024-12-14
Meta AI-Forscher stellten den Byte Latent Transformer (BLT) vor, eine neue Architektur für große Sprachmodelle, die Bytes direkt anstatt Token verarbeitet. BLT weist Rechenressourcen dynamisch basierend auf der Byte-Entropie zu, was zu erheblichen Verbesserungen bei der Inferenzeffizienz und Robustheit im Vergleich zu tokenbasierten Modellen führt. Skalierungsexperimente bis zu 8 Milliarden Parametern und 4 Terabyte Trainingsdaten zeigen, dass BLT die Leistung von Token-basierten LLMs erreicht und gleichzeitig verbesserte Argumentationsfähigkeiten und die Handhabung von Long-Tail-Daten bietet. Diese Forschung zeigt die Machbarkeit des Trainings großer Modelle direkt auf Rohbytes ohne festes Vokabular.