MobileLLM:面向设备端应用的十亿级参数以下语言模型优化
2024-07-09
MobileLLM 是一种针对设备端应用优化的子十亿级参数语言模型,该模型在 ICML 2024 上发表的一篇论文中进行了介绍。该模型采用 SwiGLU 激活函数、深而窄的架构、嵌入共享和分组查询注意力机制等多种设计因素,以构建高质量的小型语言模型。MobileLLM-125M/350M 在零样本常识推理任务上比之前的 125M/350M SoTA 模型实现了 2.7%/4.3% 的显著准确率提升。
40