Webtagr - テクノロジーニュースダイジェスト

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

低コスト推論モデルが巨大モデルを凌駕：強化学習による論理パズルの攻略

2025-03-06

研究者らは強化学習を用いて、より小さく、より安価なオープンソースの言語モデルを訓練し、「時間的手がかり」と呼ばれる推論を重視したゲームにおいて、DeepSeek R1、OpenAIのo1、o3-miniを上回り、AnthropicのSonnet 3.7に匹敵する性能を達成しました。推論時のコストは100倍以上削減されています。これは、慎重なタスク設計、ハイパーパラメータの調整、グループ相対方策最適化（GRPO）アルゴリズムとtorchtuneライブラリの使用によるものです。この研究は、強化学習が、限られたデータでも複雑な演繹タスクに対してオープンモデルを効率的に訓練できる可能性を示しており、わずか16個の訓練例で大きな性能向上を実現しました。

(openpipe.ai)