強化学習なしでのLLMファインチューニング:Direct Preference Optimization (DPO)の紹介

2025-05-28

Togetherプラットフォームは、強化学習なしで言語モデルを人間の好みと整合させる技術であるDirect Preference Optimization (DPO)をサポートするようになりました。DPOは、プロンプト、好ましい応答、好ましくない応答を含む選好データでモデルを直接トレーニングし、より役立つ、正確で、カスタマイズされたAIアシスタントを実現します。従来の強化学習方法と比較して、DPOはよりシンプルで効率的で、実装が容易です。この記事では、DPOの仕組み、使用方法、コード例について詳しく説明し、まず教師ありファインチューニング(SFT)を行い、次にDPOで調整を行うことを推奨しています。

続きを読む

DeepCoder-14B:OpenAIのo3-miniに匹敵するオープンソースのコード推論モデル

2025-04-09
DeepCoder-14B:OpenAIのo3-miniに匹敵するオープンソースのコード推論モデル

AgenticaとTogether AIは、Deepseek-R1-Distilled-Qwen-14Bから分散型強化学習によって微調整されたコード推論モデル、DeepCoder-14B-Previewをリリースしました。LiveCodeBenchで60.6%のPass@1精度を達成し、わずか14BパラメータでOpenAIのo3-miniに匹敵する性能を示しています。このプロジェクトでは、データセット、コード、トレーニングログ、システム最適化をオープンソース化しており、高品質なデータとGRPOへのアルゴリズム改良に基づいた堅牢なトレーニングレシピを示しています。この進歩により、高性能なコード生成モデルへのアクセスが民主化されます。

続きを読む