搜索技巧 核手提箱 海洋云增白 Bliss AI 搜索答案 深海沉船 自由职业 policy 小团队 颈挂空调 Chumby 个人电脑 极端主义 世界 PostgreSQL AI工具 证券 DirectX 防溢 DrawingPics Zulip 儿童读物 化学 连续滚动 代码审查 KDE 剪纸 游戏测试 多动症 三菱电机 更多

Meta开源高效长序列建模大语言模型MEGALODON (www.infoq.com)

Meta联合南加州大学、卡内基梅隆大学和加州大学圣地亚哥分校的研究人员开源了MEGALODON,这是一个具有无限上下文长度的大语言模型。MEGALODON采用分块注意力机制替代标准的多头注意力机制,并在训练中引入了基于序列的并行化,提高了长上下文训练的可扩展性。在WinoGrande和MMLU等标准LLM基准测试中,MEGALODON的性能优于参数量、训练数据和训练计算预算相同的Llama 2模型。

评论已经关闭!