FontDiffuser:拡散モデルに基づくワンショットフォント生成におけるブレイクスルー

2025-04-24

FontDiffuserは、ノイズ除去パラダイムとしてフォント模倣タスクをモデル化した、新規な拡散モデルベースのワンショットフォント生成手法です。複雑な文字と大きなスタイルのバリエーションにおける既存手法の限界に対処するため、FontDiffuserは、多尺度コンテンツ集約(MCA)ブロックを導入し、異なるスケールにわたるグローバルおよびローカルのコンテンツキューを効果的に組み合わせることで、複雑な文字の複雑なストロークの保持を向上させます。さらに、スタイルの大きな変化をより適切に管理するために、スタイルコントラストリファインメント(SCR)モジュール、つまりスタイル表現学習のための新しい構造を提案します。これは、スタイル抽出器を使用して画像からスタイルを分離し、綿密に設計されたスタイルコントラスト損失を介して拡散モデルを監視します。広範な実験により、FontDiffuserは、多様な文字とスタイルの生成において最先端の性能を示し、特に複雑な文字と大きなスタイルの変化において、従来の手法を常に凌駕することが示されました。

続きを読む