DeepCoder-14B:开源代码推理模型,性能媲美OpenAI o3-mini

2025-04-09
DeepCoder-14B:开源代码推理模型,性能媲美OpenAI o3-mini

Agentica和Together AI合作发布了DeepCoder-14B-Preview,这是一个基于强化学习微调的代码推理模型,其在LiveCodeBench上的准确率达到了60.6%,与OpenAI的o3-mini不相上下。该模型使用了24000个经过验证的编码问题进行训练,并开源了数据集、代码、训练日志和系统优化。DeepCoder的成功之处在于其高质量的数据集、稳定的GRPO+强化学习算法以及高效的系统优化,这些都为提升LLM的代码推理能力提供了宝贵的经验。