OpenCoder是一系列开源且可复现的代码大型语言模型,包括15亿和80亿参数的基础模型和聊天模型,支持英语和中文。它在包含90%原始代码和10%代码相关网络数据的2.5万亿个词符上进行训练,达到了顶级代码大型语言模型的性能。除了模型权重和推理代码,OpenCoder还提供了可复现的训练数据、完整的数据处理流程、严格的消融实验结果以及详细的训练协议。