DeepSeek-R1:强化学习赋能大语言模型推理能力

2025-01-25
DeepSeek-R1:强化学习赋能大语言模型推理能力

DeepSeek-AI团队发布了其首个推理模型DeepSeek-R1,该模型通过大规模强化学习训练,无需监督微调。其前身DeepSeek-R1-Zero展现出强大的推理能力,但存在可读性和语言混合等问题。DeepSeek-R1在R1-Zero基础上,加入多阶段训练和冷启动数据,性能与OpenAI的模型相当。研究团队开源了DeepSeek-R1-Zero、DeepSeek-R1以及六个不同规模的蒸馏模型,为研究社区贡献力量。

AI