SpikingBrain: Um Modelo de Linguagem Grande Inspirado no Cérebro e Altamente Eficiente
SpikingBrain é um modelo de linguagem grande de 7B parâmetros inspirado nos mecanismos cerebrais. Ele integra atenção híbrida eficiente, módulos MoE e codificação de pico, suportados por um pipeline de conversão universal compatível com o ecossistema de modelos de código aberto. Isso permite pré-treinamento contínuo com menos de 2% dos dados, alcançando desempenho comparável a modelos de código aberto convencionais. Além disso, a estrutura, os operadores, as estratégias paralelas e as primitivas de comunicação são adaptadas para clusters não NVIDIA (MetaX), garantindo treinamento e inferência em larga escala estáveis. SpikingBrain atinge mais de 100 vezes de aceleração em TTFT para sequências de 4M tokens, enquanto a geração de picos oferece mais de 69% de esparsidade em nível micro. Combinado com a esparsidade MoE em nível macro, esses avanços fornecem orientação valiosa para o design de chips neuromórficos de próxima geração. O repositório fornece a implementação completa e os pesos do SpikingBrain-7B, incluindo as versões HuggingFace, inferência vLLM e quantizada, permitindo implantação e pesquisa flexíveis em vários cenários.