SpikingBrain: Ein gehirninspirieres, hocheffizientes großes Sprachmodell
SpikingBrain ist ein großes Sprachmodell mit 7 Milliarden Parametern, das von Gehirnmechanismen inspiriert ist. Es integriert effiziente hybride Aufmerksamkeit, MoE-Module und Spike-Codierung, unterstützt durch eine universelle Konvertierungspipeline, die mit dem Open-Source-Modell-Ökosystem kompatibel ist. Dies ermöglicht ein kontinuierliches Vortraining mit weniger als 2 % der Daten, während gleichzeitig eine Leistung erreicht wird, die mit gängigen Open-Source-Modellen vergleichbar ist. Darüber hinaus wurden Framework, Operatoren, Parallelisierungsstrategien und Kommunikationsprimitive für Nicht-NVIDIA-Cluster (MetaX) angepasst, um ein stabiles Training und Inferencing im großen Maßstab zu gewährleisten. SpikingBrain erreicht eine über 100-fache Beschleunigung bei TTFT für 4M-Token-Sequenzen, während Spiking über 69 % Sparsität auf Mikroebene liefert. In Kombination mit der MoE-Sparsität auf Makroebene liefern diese Fortschritte wertvolle Hinweise für das Design von neuromorphen Chips der nächsten Generation. Das Repository bietet die vollständige Implementierung und die Gewichte von SpikingBrain-7B, einschließlich der HuggingFace-Version, der vLLM-Inferenzversion und der quantisierten Version, und ermöglicht einen flexiblen Einsatz und Forschung in verschiedenen Szenarien.