Apertus:完全にオープンな多言語大規模言語モデル

2025-09-06
Apertus:完全にオープンな多言語大規模言語モデル

Apertusは、700億と80億のパラメータを持つ、完全にオープンな多言語大規模言語モデルです。1000以上の言語と長いコンテキストをサポートしています。完全に準拠したオープンなトレーニングデータで15兆トークンをトレーニングし、クローズドソースモデルと同等の性能を達成しています。Apertusは、新しいxIELU活性化関数とAdEMAMixオプティマイザを使用し、教師あり微調整とQRPOアライメントを受けています。重み、データ、トレーニングの詳細は公開されており、データ所有者のオプトアウト同意を尊重し、トレーニングデータの丸暗記を回避しています。transformersライブラリに統合されており、さまざまなデプロイ方法をサポートしています。強力である一方で、出力における潜在的な不正確さとバイアスに注意する必要があります。

続きを読む
AI

Qwen3-235B-A22B-Thinking-2507:オープンソース推論モデルのメジャーアップデート

2025-07-25
Qwen3-235B-A22B-Thinking-2507:オープンソース推論モデルのメジャーアップデート

Qwen3-235B-A22B-Thinking-2507は、オープンソースの大規模言語モデルにおける大幅な改良版であり、推論能力において画期的な進歩を遂げています。論理的推論、数学、科学、コーディング、そして学術的なベンチマークにおいて最先端の結果を達成し、様々な複雑なタスクで優れた性能を示します。このモデルは、指示に従う能力、ツールの使用、テキスト生成、人間の好みとの整合性などの一般的な能力も向上しており、256Kのロングコンテキスト理解も強化されています。重要なのは、このバージョンはデフォルトで「思考モード」で動作し、複雑な推論タスクに強く推奨される点です。

続きを読む
AI

SmolLM3:小型・多言語・長文脈推論モデル

2025-07-09
SmolLM3:小型・多言語・長文脈推論モデル

SmolLM3は、30億パラメーターの完全にオープンソースの多言語大規模言語モデルであり、効率性と性能のバランスを驚くほど取っています。様々なベンチマークでLlama-3.2-3BやQwen2.5-3Bを上回り、さらに大きな40億パラメーターのモデルとも競争力を持ちます。6言語をサポートし、最大128kトークンのコンテキスト長を誇り、独自のデュアルモード推論機能(think/no_think)を備えています。モデルそのものだけでなく、アーキテクチャの詳細、データの混合方法、トレーニング方法を含む完全なエンジニアリング設計図も公開されており、この規模のモデルを構築または研究する上で貴重なリソースとなります。

続きを読む

Nanonets-OCR-s:従来のOCRを超えたインテリジェントな文書処理

2025-06-16
Nanonets-OCR-s:従来のOCRを超えたインテリジェントな文書処理

Nanonets-OCR-sは、最先端の画像からMarkdownへのOCRモデルであり、従来のテキスト抽出を超えています。インテリジェントなコンテンツ認識とセマンティックタグ付けにより、ドキュメントを構造化されたMarkdownに変換し、大規模言語モデル(LLM)による後処理に最適です。主な機能には、LaTeX数式認識、インテリジェントな画像説明、署名検出、透かし抽出、スマートチェックボックス処理、複雑な表抽出などがあります。transformers、vLLM、またはdocextを使用してモデルを使用できます。

続きを読む
AI

Penny-1.7B:19世紀アイルランド風散文スタイルの言語モデル

2025-06-02
Penny-1.7B:19世紀アイルランド風散文スタイルの言語モデル

Penny-1.7Bは、17億パラメーターの因果言語モデルで、グループ相対方策最適化(GRPO)を用いて微調整され、1840年のアイルランド・ペニー・ジャーナルの19世紀散文スタイルを模倣します。報酬モデルは、オリジナルのジャーナルテキストと現代の翻訳を区別することで、本物らしさを最大化します。クリエイティブライティング、教育コンテンツ、またはビクトリア朝時代のアイリッシュイングリッシュの様式模倣に最適ですが、現代の事実確認にはお勧めしません。

続きを読む
AI

Hugging Faceで6850億パラメーターのDeepSeek-R1-0528モデルが登場

2025-05-28
Hugging Faceで6850億パラメーターのDeepSeek-R1-0528モデルが登場

Hugging Faceに、6850億パラメーターという巨大なパラメーター数を持つ大規模言語モデルDeepSeek-R1-0528が登場しました。Safetensors形式で提供され、BF16、F8_E4M3、F32などのテンソルの種類をサポートしています。現時点では、推論プロバイダーによる展開はされていませんが、Hugging Faceのページにはモデルカード、ファイル、バージョン情報などが掲載されています。

続きを読む
AI

Hugging Face、無料MCPコースを発表:モデルコンテキストプロトコル入門

2025-05-21
Hugging Face、無料MCPコースを発表:モデルコンテキストプロトコル入門

Hugging Faceは、初心者からエキスパートまでを対象とした無料のモデルコンテキストプロトコル(MCP)コースを発表しました。このコースでは、MCPの理論、設計、実践に加え、確立されたMCP SDKとフレームワークを使用したアプリケーション開発を学びます。課題を完了することで修了証を取得し、チャレンジに参加することもできます。カリキュラムには、Hugging Faceのパートナーとの協業によるユニットも含まれており、最新のMCP実装とツールにアクセスできます。前提条件として、AIとLLMの基本的な理解、ソフトウェア開発の原則とAPI、少なくとも1つのプログラミング言語(PythonまたはTypeScriptの例を示します)の経験が必要です。

続きを読む
AI

完全自律型AIエージェントに対する批判的分析

2025-02-08
完全自律型AIエージェントに対する批判的分析

この論文は、完全自律型AIエージェントの開発に反対する議論を批判的に分析しています。構造化され、厳密であり、安全上の危険やプライバシー侵害などの現実的なリスクを強調している一方で、過度に絶対的な立場、曖昧な「完全自律」の定義、不均衡なリスクとベネフィットの分析、そして軽減戦略の不十分な探求といった問題を抱えています。技術決定論の兆候も見られます。改善策としては、絶対的な拒否の緩和、「完全自律」の定義の明確化、分析のバランス調整、軽減戦略の開発、そして経験的根拠の強化などが挙げられます。最終的に、これはAI倫理に関する継続的な議論への貴重な貢献ですが、決定的な結論ではありません。

続きを読む
AI

Open-R1:DeepSeek-R1推論モデルのオープンソース再現

2025-01-28
Open-R1:DeepSeek-R1推論モデルのオープンソース再現

DeepSeek-R1モデルの驚異的な推論能力はAIコミュニティを魅了しましたが、そのトレーニングの詳細は明らかにされていません。Open-R1プロジェクトは、データセットとトレーニングパイプラインを含め、DeepSeek-R1を完全にオープンソースで再現することを目指しています。これには、DeepSeek-R1から高品質の推論データセットを蒸留し、純粋な強化学習トレーニングプロセスを再現し、多段階トレーニング方法を探求することが含まれます。最終目標は、透明性が高く再現可能な推論モデルを作成し、オープンソースコミュニティの発展を促進することです。

続きを読む
AI

Janus-Pro-7B:統一されたマルチモーダル理解と生成モデル

2025-01-27
Janus-Pro-7B:統一されたマルチモーダル理解と生成モデル

DeepSeekは、マルチモーダルな理解と生成を統合した革新的な自己回帰フレームワークであるJanus-Pro-7Bを発表しました。従来のアプローチとは異なり、Janus-Proは視覚エンコーディングを巧みに分離し、単一のトランスフォーマーアーキテクチャ内で効率的な処理を実現します。この分離は、視覚エンコーダーの理解と生成における役割の競合を解決するだけでなく、フレームワークの柔軟性を向上させます。Janus-Proは以前の統合モデルを上回り、タスク固有のモデルと同等またはそれ以上の性能を発揮します。そのシンプルさ、高い柔軟性、有効性から、次世代の統合マルチモーダルモデルの有力候補となっています。

続きを読む
AI

DeepSeek-R1:強化学習で訓練された推論モデルとその蒸留版

2025-01-20
DeepSeek-R1:強化学習で訓練された推論モデルとその蒸留版

DeepSeekは、第一世代の推論モデルDeepSeek-R1を発表しました。大規模な強化学習によって訓練され、教師ありファインチューニングを必要としないDeepSeek-R1は、前身であるDeepSeek-R1-Zeroに見られた無限ループや可読性の低さといった問題を、RLの前にコールドスタートデータを取り入れることで解決しています。DeepSeek-R1は、様々なベンチマークでOpenAI-o1と同等の性能を達成しています。さらに、DeepSeekはDeepSeek-R1と、LlamaおよびQwenベースの6つの蒸留モデルをオープンソース化しました。DeepSeek-R1-Distill-Qwen-32Bは、複数のベンチマークでOpenAI-o1-miniを上回り、蒸留モデルにおいて新たな最先端の結果を達成しています。これらのモデルは、使いやすいAPIとチャットインターフェースと共にHugging Faceで公開されています。

続きを読む

Sentence Transformersによる400倍高速な静的埋め込みモデル

2025-01-15
Sentence Transformersによる400倍高速な静的埋め込みモデル

この記事では、最先端の埋め込みモデルよりもCPUで100~400倍高速に動作する静的埋め込みモデルをトレーニングする方法を紹介します。この方法は、デバイス上やブラウザ上での実行、エッジコンピューティング、低電力アプリケーション、組み込みアプリケーションなど、多くのエキサイティングなユースケースを可能にします。このレシピを使用して、非常に効率的な2つの埋め込みモデルをトレーニングしました。sentence-transformers/static-retrieval-mrl-en-v1(英語検索用)とsentence-transformers/static-similarity-mrl-multilingual-v1(多言語類似度タスク用)です。これらのモデルは、all-mpnet-base-v2やmultilingual-e5-smallなどの一般的なモデルよりもCPUで100~400倍高速でありながら、さまざまなベンチマークで少なくとも85%の性能を達成します。

続きを読む

ModernBERT:BERTに取って代わる革命的な代替モデル

2024-12-19
ModernBERT:BERTに取って代わる革命的な代替モデル

Answer.AIとLightOnは、ModernBERTを発表しました。これは、速度と精度においてBERTを凌駕する、最先端のエンコーダーのみのモデルファミリーです。ModernBERTは、近年のLLM研究における多くの進歩を取り入れ、拡張されたコンテキスト長(8192トークン)、高速処理、そして様々なベンチマークにおける優れた性能を誇ります。特に強力なコード検索機能により、大規模コード検索や強化されたIDE機能などの新しいアプリケーションへの道が開かれます。ModernBERTはBERTモデルの直接的な代替品として、Hugging Faceで利用可能です。

続きを読む

Hugging Face Spaces、ZeroGPUを発表:AIモデルの効率向上のための動的なGPU割り当て

2024-12-15
Hugging Face Spaces、ZeroGPUを発表:AIモデルの効率向上のための動的なGPU割り当て

Hugging Face Spacesは、ZeroGPUを発表しました。これは、AIモデルとデモのGPU使用率を最適化するために、NVIDIA A100 GPUを動的に割り当てる共有インフラストラクチャです。ZeroGPUは、無料のGPUアクセス、マルチGPUサポートを提供し、AIモデルのデプロイの障壁を低くします。ユーザーは、Gradio Spaceの作成時にZeroGPUハードウェアを選択し、GPU依存関数を`@spaces.GPU`デコレータで修飾するだけです。ZeroGPUはPyTorchと互換性があり、Hugging Faceのtransformersとdiffusersライブラリ用に最適化されていますが、現時点ではGradio SDKでのみ動作します。個人アカウント(PROユーザー)は最大10個のZeroGPU Spaceを作成でき、組織アカウント(Enterprise Hub)は最大50個を作成できます。

続きを読む