LLäMmlein 1B & 120M:全新德语解码模型

2024-11-22

本文介绍了两个全新研发的德语解码模型LLäMmlein 1B和120M。该项目涵盖了数据预处理、自定义分词器创建以及训练设置优化等关键步骤。通过在SuperGLEBer基准测试中的评估,LLäMmlein模型表现出与同等规模模型相当或更优的性能,其中1B模型甚至能与更大规模的模型相媲美。目前,预印本、基础模型和聊天调优模型均已发布,代码和数据也将很快开源。