Metas Byte Latent Transformer (BLT): Übertrifft Token-basierte LLMs

2024-12-14

Meta AI-Forscher stellten den Byte Latent Transformer (BLT) vor, eine neue Architektur für große Sprachmodelle, die Bytes direkt anstatt Token verarbeitet. BLT weist Rechenressourcen dynamisch basierend auf der Byte-Entropie zu, was zu erheblichen Verbesserungen bei der Inferenzeffizienz und Robustheit im Vergleich zu tokenbasierten Modellen führt. Skalierungsexperimente bis zu 8 Milliarden Parametern und 4 Terabyte Trainingsdaten zeigen, dass BLT die Leistung von Token-basierten LLMs erreicht und gleichzeitig verbesserte Argumentationsfähigkeiten und die Handhabung von Long-Tail-Daten bietet. Diese Forschung zeigt die Machbarkeit des Trainings großer Modelle direkt auf Rohbytes ohne festes Vokabular.

Mehr lesen

Meta FAIR präsentiert bahnbrechende KI-Forschung und Open-Source-Modelle

2024-12-13

Meta FAIR hat eine Reihe bahnbrechender KI-Forschungsartefakte veröffentlicht, darunter Meta Motivo, ein grundlegendes Modell zur Steuerung virtueller, verkörperter Agenten, und Meta Video Seal, ein Open-Source-Modell für Video-Wasserzeichen. Diese Veröffentlichung konzentriert sich auf Fortschritte bei den Fähigkeiten von Agenten, Robustheit, Sicherheit und Architekturinnovationen für effizienteres Lernen. Weitere wichtige Beiträge umfassen die Flow Matching-Codebasis, Meta Explore Theory-of-Mind für das Denken über die Theorie des Geistes, Large Concept Models (LCMs) und den Dynamic Byte Latent Transformer. Durch die Open-Sourcing dieser Modelle und Tools möchte Meta die Zusammenarbeit fördern und die verantwortungsvolle Entwicklung von KI beschleunigen.

Mehr lesen
KI