SpikingBrain:受脑机制启发的超高效大模型

2025-09-14
SpikingBrain:受脑机制启发的超高效大模型

SpikingBrain是一个受大脑机制启发的7B参数大模型,它结合了混合高效注意力机制、MoE模块和脉冲编码,并支持与开源模型生态系统兼容的通用转换流程。这使得它能够在使用不到2%的数据进行持续预训练的同时,达到与主流开源模型相当的性能。此外,该模型还针对非NVIDIA(MetaX)集群适配了框架、算子、并行策略和通信原语,确保了大规模训练和推理的稳定性。SpikingBrain在4M token序列的TTFT方面实现了超过100倍的加速,同时脉冲编码在微观层面上实现了超过69%的稀疏性。结合宏观层面的MoE稀疏性,这些进步为下一代神经形态芯片的设计提供了宝贵的指导。该项目提供了SpikingBrain-7B的完整实现和权重,包括HuggingFace版本、vLLM推理版本和量化版本,支持在不同场景下的灵活部署和研究。

AI