DeepSeek R1：开源模型在复杂推理任务中挑战OpenAI

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

DeepSeek R1：开源模型在复杂推理任务中挑战OpenAI

2025-01-31

DeepSeek R1，一个开源模型，在复杂推理任务中与OpenAI的模型一较高下。它利用群体相对策略优化（GRPO）和强化学习的多阶段训练方法，不仅发布了模型，还发布了相关的研究论文。论文中描述了训练过程中一个“顿悟时刻”：模型学会了通过重新评估初始方法来分配更多思考时间，无需任何人工反馈或数据指导。本文尝试使用GRPO和Countdown游戏来重现DeepSeek R1的“顿悟时刻”，训练一个开源模型，使其自主学习自我验证和搜索能力。文章还提供了一个Jupyter Notebook交互式代码，以及在多GPU节点或SLURM集群上运行训练的脚本和说明，方便读者学习GRPO和TRL的使用方法。

(www.philschmid.de)

计算机历史博物馆发布Xerox Alto源代码

sixos：基于Nixpkgs和s6的轻量级操作系统