DeepSeek-R1：无需监督微调的强化学习推理模型

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

DeepSeek-R1：无需监督微调的强化学习推理模型

2025-01-20

DeepSeek团队开源了其首个推理模型DeepSeek-R1及其一系列蒸馏模型。DeepSeek-R1-Zero通过大规模强化学习训练，无需监督微调，展现出强大的推理能力，但存在一些缺陷。DeepSeek-R1在RL前加入冷启动数据，解决了这些问题，性能与OpenAI-o1相当。此外，团队还开源了基于Llama和Qwen的六个蒸馏模型，其中DeepSeek-R1-Distill-Qwen-32B在多个基准测试中超越了OpenAI-o1-mini。该项目支持商业用途，并提供了在线聊天网站和兼容OpenAI的API。

(github.com)

冥王星最大卫星卡戎的“亲吻捕获”起源