Meta开源高效长序列建模大语言模型MEGALODON

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

Meta开源高效长序列建模大语言模型MEGALODON

2024-06-11

Meta联合南加州大学、卡内基梅隆大学和加州大学圣地亚哥分校的研究人员开源了MEGALODON，这是一个具有无限上下文长度的大语言模型。MEGALODON采用分块注意力机制替代标准的多头注意力机制，并在训练中引入了基于序列的并行化，提高了长上下文训练的可扩展性。在WinoGrande和MMLU等标准LLM基准测试中，MEGALODON的性能优于参数量、训练数据和训练计算预算相同的Llama 2模型。

(www.infoq.com)

未分类

Easy macOS Installation on Any Computer with Proxmox

3D + 2D: Testing out my cross-platform WASM graphics engine | Hacker News