AppleのFastVLM:超高速ビジョン言語モデル

2025-07-24
AppleのFastVLM:超高速ビジョン言語モデル

AppleのML研究者たちは、CVPR 2025で、新しいビジョン言語モデル(VLM)であるFastVLMを発表しました。VLMに固有の精度と効率のトレードオフに対処するために、FastVLMは高解像度画像用に設計されたハイブリッドアーキテクチャのビジョンエンコーダであるFastViTHDを使用しています。これにより、同等のモデルよりもはるかに高速で正確なVLMが実現し、デバイス上のリアルタイムアプリケーションやプライバシーを保護するAIを可能にします。FastViTHDは、より少ない数の高品質な視覚トークンを生成し、LLMのプリフィリングを高速化します。iOS/macOSデモアプリは、デバイス上のFastVLMの機能を示しています。

続きを読む

アップル、次世代多言語・マルチモーダル基盤言語モデルを発表

2025-07-18
アップル、次世代多言語・マルチモーダル基盤言語モデルを発表

アップルは、デバイスとサーバーのインテリジェンス機能を強化する、2つの新しい多言語・マルチモーダル基盤言語モデルを発表しました。約30億パラメータのデバイス向けモデル(Appleシリコン向けに最適化)と、新しいParallel-Track Mixture-of-Experts(PT-MoE)トランスフォーマーに基づくスケーラブルなサーバー向けモデルです。どちらも大規模な多言語・マルチモーダルデータセットでトレーニングされ、教師ありファインチューニングと強化学習によって改良されています。より多くの言語、画像理解、ツール呼び出しをサポートし、同等のオープンソースベースラインに匹敵するか、それを上回っています。新しいSwift中心のフレームワークにより、開発者は簡単に統合できます。

続きを読む
AI

TarFlow:Transformerベースの正規化フローモデルが画像尤度推定でSOTAを更新

2025-06-28
TarFlow:Transformerベースの正規化フローモデルが画像尤度推定でSOTAを更新

研究者らは、Transformerアーキテクチャとマスク付き自己回帰フローの長所を組み合わせた、TarFlowと呼ばれる新しい正規化フローモデルを発表しました。TarFlowは、画像パッチに自己回帰Transformerブロックを適用し、層間で自己回帰の方向を交互に切り替えることで、効率的な密度推定と画像生成を実現します。さらに、サンプル品質を向上させる3つの主要な技術、すなわちトレーニング中のガウスノイズ増強、トレーニング後のノイズ除去手順、およびクラス条件付きと無条件の両方の設定に対する効果的なガイダンス方法を提案しています。これらの技術を組み合わせることで、TarFlowは画像の尤度推定において画期的な成果を達成し、従来の最先端手法を大きく上回り、スタンドアロンの正規化フローモデルとしては初めて、拡散モデルに匹敵する品質と多様性を備えたサンプルを生成します。

続きを読む
AI

大規模推論モデル:崩壊と直感に反するスケーリング

2025-06-08
大規模推論モデル:崩壊と直感に反するスケーリング

最近の最先端の大規模言語モデル(LLM)は、回答を提供する前に詳細な思考過程を生成する大規模推論モデル(LRM)を生み出しました。これらのモデルは推論ベンチマークで性能が向上していますが、その基本的な能力、スケーリング特性、および限界は十分に理解されていません。本研究では、制御可能なパズル環境を用いてLRMの推論能力を体系的に調査します。その結果、LRMは特定の複雑さを超えると完全な精度崩壊を示し、さらに直感に反するスケーリング限界を示すことがわかりました。つまり、推論の努力は問題の複雑さの増加とともに増加しますが、ある時点を超えると、十分なトークン予算があっても減少します。また、LRMは正確な計算において限界があり、明示的なアルゴリズムを使用できず、パズル間で矛盾した推論を行うこともわかりました。この研究は、LRMの長所、短所、そしてその真の推論能力に関する重要な問題を明らかにしています。

続きを読む
AI

プライバシー保護を前提としたAppleのAI機能向上アプローチ

2025-04-14
プライバシー保護を前提としたAppleのAI機能向上アプローチ

Appleは、Genmoji、画像生成ツール、ライティングツールなどのAI機能を向上させながら、ユーザーのプライバシー保護に尽力しています。同社は差分プライバシー技術を用いて、ユーザーデータを匿名化し、Genmojiの人気プロンプトなど、集約されたトレンド情報のみを収集します。メールなどの長文テキストを処理するAI機能については、合成データを使用します。これは、実際のメールコンテンツにアクセスすることなく、モデルのトレーニングとテストのために、実際のユーザーデータパターンを模倣する合成データを生成するものです。これにより、Appleは製品体験を向上させながら、ユーザーのプライバシーを最優先事項として維持することができます。

続きを読む

AppleのAIブレークスルー:Activation Transport (AcT)による生成モデルの精密制御

2025-04-10
AppleのAIブレークスルー:Activation Transport (AcT)による生成モデルの精密制御

Appleの機械学習研究者たちは、Activation Transport (AcT)と呼ばれる新しい技術を開発しました。これは、LLMやテキストから画像への拡散モデルなど、大規模な生成モデルの出力を精密に制御する技術で、RLHFやファインチューニングのようなリソースを大量に消費するトレーニングを行う必要がありません。AcTは最適輸送理論を用いてモデルの活性化を制御し、最小限の計算オーバーヘッドでモダリティ非依存の制御を実現します。実験では、毒性の軽減、LLMにおける真実性の向上、画像生成におけるスタイルの制御において、著しい改善が示されました。AcTは、より安全で信頼性の高い生成モデルへの道を切り開きます。

続きを読む

SeedLM:擬似乱数発生器を用いたLLMウェイト圧縮手法

2025-04-06
SeedLM:擬似乱数発生器を用いたLLMウェイト圧縮手法

大規模言語モデル(LLM)は、高価な実行コストのために、広く展開されることが制限されています。Metaの研究者らは、擬似乱数発生器のシードを使用してモデルウェイトをエンコードおよび圧縮する、新しいポストトレーニング圧縮手法SeedLMを発表しました。推論中に、SeedLMは線形フィードバックシフトレジスタ(LFSR)を用いて効率的にランダム行列を生成し、それを圧縮係数と線形結合してウェイトブロックを再構成します。これにより、メモリアクセスが削減され、アイドル状態の計算サイクルが活用され、メモリバウンドタスクの高速化が実現します。キャリブレーションデータに依存する最先端の方法とは異なり、SeedLMはデータフリーであり、さまざまなタスクで高い汎化性能を示します。困難なLlama 3 70Bを用いた実験では、4ビットおよび3ビット圧縮におけるゼロショット精度が、最先端の方法と同等かそれ以上であり、FP16ベースラインと同等の性能を維持しています。さらに、FPGAベースのテストでは、モデルサイズが増加するにつれて、4ビットSeedLMはFP16 Llama 2/3ベースラインに対して4倍の高速化に近づきます。

続きを読む
AI