多項式特徴量とデータ分布の整合: MLにおける注意-整合問題

2025-08-26
多項式特徴量とデータ分布の整合: MLにおける注意-整合問題

この記事では、機械学習モデルの性能向上のため、多項式特徴量とデータ分布の整合について探求します。直交基底は、データが一様に分布している場合、情報量の多い特徴量を生成しますが、現実世界のデータはそうではありません。2つのアプローチが提示されています。1つは、直交基底を適用する前にデータを一様分布に変換するマッピングの手法です。もう1つは、注意深く選択された関数をかけることで、直交基底の重み関数を調整し、データ分布に合わせることです。前者はScikit-LearnのQuantileTransformerで実現できる、より実際的な方法です。後者はより複雑で、深い数学的理解と微調整が必要です。カリフォルニア住宅データセットの実験では、前者の方法で生成された準直交特徴量が、従来の最小-最大スケーリングよりも線形回帰で優れた性能を示しました。

続きを読む

回帰における高次多項式の神話:バーンシュタイン基底による優雅な解決策

2025-04-22
回帰における高次多項式の神話:バーンシュタイン基底による優雅な解決策

機械学習において、高次多項式は過学習を起こしやすく、制御が難しいという一般的な認識に、この記事は異議を唱えます。著者は、問題は高次多項式自体ではなく、標準基底など、不適切な基底関数の使用にあると主張します。ノイズの多いデータへの適合において、標準基底、チェビシェフ基底、ルジャンドル基底とバーンシュタイン基底を比較した実験により、バーンシュタイン基底は、その係数が同じ「単位」を持ち、容易に正則化できるため、過学習を効果的に回避することが示されました。高次多項式であっても、バーンシュタイン基底を使用すれば優れた適合が得られ、ハイパーパラメータの調整は最小限で済みます。

続きを読む