Meta开源高效长序列建模大语言模型MEGALODON

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

Meta开源高效长序列建模大语言模型MEGALODON

2024-06-11

Meta联合南加州大学、卡内基梅隆大学和加州大学圣地亚哥分校的研究人员开源了MEGALODON，这是一个具有无限上下文长度的大语言模型。MEGALODON采用分块注意力机制替代标准的多头注意力机制，并在训练中引入了基于序列的并行化，提高了长上下文训练的可扩展性。在WinoGrande和MMLU等标准LLM基准测试中，MEGALODON的性能优于参数量、训练数据和训练计算预算相同的Llama 2模型。

(www.infoq.com)

未分类

微软Outlook安全升级影响第三方应用和Gmail集成

符号智能