搜索技巧 核手提箱 海洋云增白 Bliss AI 搜索答案 自由职业 policy 颈挂空调 Chumby 个人电脑 极端主义 世界 PostgreSQL AI工具 DirectX 防溢 DrawingPics 儿童读物 化学 代码审查 KDE 游戏测试 多动症 超级计算机 植物学 分析化学 Three.js 大会 残疾人学校 三菱电机 更多

Meta开源高效长序列建模大语言模型MEGALODON (www.infoq.com)

Meta联合南加州大学、卡内基梅隆大学和加州大学圣地亚哥分校的研究人员开源了MEGALODON,这是一个具有无限上下文长度的大语言模型。MEGALODON采用分块注意力机制替代标准的多头注意力机制,并在训练中引入了基于序列的并行化,提高了长上下文训练的可扩展性。在WinoGrande和MMLU等标准LLM基准测试中,MEGALODON的性能优于参数量、训练数据和训练计算预算相同的Llama 2模型。

评论已经关闭!