OpenAI、gpt-ossを発表:ローカル実行可能な強力なオープンウェイトLLM

2025-08-10
OpenAI、gpt-ossを発表:ローカル実行可能な強力なオープンウェイトLLM

OpenAIは今週、2019年のGPT-2以来となる初のオープンウェイトモデルであるgpt-oss-120bとgpt-oss-20bをリリースしました。驚くべきことに、巧妙な最適化により、ローカルで実行できます。この記事では、gpt-ossモデルのアーキテクチャを詳しく掘り下げ、GPT-2やQwen3などのモデルと比較します。Mixture-of-Experts(MoE)、Grouped Query Attention(GQA)、スライドウィンドウアテンションなどの独自のアーキテクチャ上の選択を強調しています。ベンチマークでは、gpt-ossはいくつかの分野でクローズドソースモデルと同等の性能を示していますが、ローカル実行可能性とオープンソースの性質により、研究やアプリケーションにとって貴重な資産となります。

続きを読む

2025年の大規模言語モデルアーキテクチャの進化:DeepSeek、OLMo、Gemma、Mistral、Qwenの深堀り

2025-07-20
2025年の大規模言語モデルアーキテクチャの進化:DeepSeek、OLMo、Gemma、Mistral、Qwenの深堀り

この記事では、2025年の大規模言語モデル(LLM)のアーキテクチャの進歩をレビューし、DeepSeek、OLMo、Gemma、Mistral、Qwenなどのオープンソースモデルに焦点を当てています。DeepSeek V3/R1は、マルチヘッド潜在的アテンション(MLA)と混合専門家(MoE)を用いて計算効率を向上させます。OLMo 2は、RMSNormの配置に重点を置き、Post-NormとQK-Normを使用しています。Gemma 3は、スライディングウィンドウアテンションを使用してメモリ要件を削減します。Mistral Small 3.1は、パフォーマンスと速度のバランスを取っています。Qwen 3は、柔軟性のために密なモデルとMoEの両方のバリアントを提供します。SmolLM3は、30億パラメータのサイズとNoPE(位置エンコーディングなし)で際立っています。最後に、Kimi 2は、1兆パラメータ規模とMuonオプティマイザで印象的です。これらのモデルは、アテンションメカニズム、正規化、MoE、オプティマイザにおけるイノベーションを示しており、LLMアーキテクチャの多様性と継続的な進化を示しています。

続きを読む

LLMのための推論モデル構築の4つのアプローチ

2025-02-06
LLMのための推論モデル構築の4つのアプローチ

この記事では、大規模言語モデル(LLM)の推論能力を高めるための4つの主要なアプローチを探ります。推論時間スケーリング、純粋な強化学習、教師ありファインチューニングと強化学習の組み合わせ、そしてモデル蒸留です。DeepSeek R1の開発をケーススタディとして使用し、これらの方法がどのように強力な推論モデルを構築できるか、そして予算の限られた研究者でも蒸留によって素晴らしい結果を得られるかを示します。また、DeepSeek R1とOpenAIのo1を比較し、費用対効果の高い推論モデルを構築するための戦略についても議論します。

続きを読む
AI