DeepSeek-R1:无需监督微调的强化学习推理模型

2025-01-20
DeepSeek-R1:无需监督微调的强化学习推理模型

DeepSeek团队开源了其首个推理模型DeepSeek-R1及其一系列蒸馏模型。DeepSeek-R1-Zero通过大规模强化学习训练,无需监督微调,展现出强大的推理能力,但存在一些缺陷。DeepSeek-R1在RL前加入冷启动数据,解决了这些问题,性能与OpenAI-o1相当。此外,团队还开源了基于Llama和Qwen的六个蒸馏模型,其中DeepSeek-R1-Distill-Qwen-32B在多个基准测试中超越了OpenAI-o1-mini。该项目支持商业用途,并提供了在线聊天网站和兼容OpenAI的API。

AI