搜索技巧 海洋云增白 开源地图 AI 搜索答案 沙丘魔堡2 压缩机站 自由职业 policy 小团队 颈挂空调 Chumby 个人电脑 极端主义 团队 PostgreSQL AI工具 证券 DirectX DrawingPics 化学 KDE 披萨农场 多动症 植物学 分析化学 Three.js 大会 残疾人学校 初创 QB64 更多

Meta开源高效长序列建模大语言模型MEGALODON (www.infoq.com)

Meta联合南加州大学、卡内基梅隆大学和加州大学圣地亚哥分校的研究人员开源了MEGALODON,这是一个具有无限上下文长度的大语言模型。MEGALODON采用分块注意力机制替代标准的多头注意力机制,并在训练中引入了基于序列的并行化,提高了长上下文训练的可扩展性。在WinoGrande和MMLU等标准LLM基准测试中,MEGALODON的性能优于参数量、训练数据和训练计算预算相同的Llama 2模型。

评论已经关闭!