Alignement des caractéristiques polynomiales avec la distribution des données : Le problème de l'attention-alignement en ML

2025-08-26
Alignement des caractéristiques polynomiales avec la distribution des données : Le problème de l'attention-alignement en ML

Cet article explore l'alignement des caractéristiques polynomiales avec la distribution des données pour améliorer les performances du modèle d'apprentissage automatique. Les bases orthogonales produisent des caractéristiques informatives lorsque les données sont distribuées uniformément, mais ce n'est pas le cas des données réelles. Deux approches sont présentées : une astuce de mapping, qui transforme les données en une distribution uniforme avant d'appliquer une base orthogonale ; et la multiplication par une fonction soigneusement choisie pour ajuster la fonction de poids de la base orthogonale afin qu'elle s'aligne sur la distribution des données. La première est plus pratique, réalisable avec le QuantileTransformer de Scikit-Learn. La seconde est plus complexe, nécessitant une compréhension mathématique plus approfondie et des réglages fins. Les expériences sur l'ensemble de données des logements en Californie montrent que les caractéristiques quasi-orthogonales de la première méthode surpassent le scaling min-max traditionnel dans la régression linéaire.

Lire plus

Démythification des polynômes de haut degré en régression

2025-04-22
Démythification des polynômes de haut degré en régression

La croyance répandue selon laquelle les polynômes de haut degré sont sujets au sur-apprentissage et difficiles à contrôler en apprentissage automatique est remise en question dans cet article. L'auteur soutient que le problème ne réside pas dans les polynômes de haut degré eux-mêmes, mais plutôt dans l'utilisation de fonctions de base inappropriées, comme la base standard. Des expériences comparant les bases standard, Chebyshev et Legendre à la base de Bernstein pour l'ajustement de données bruitées montrent que la base de Bernstein, dont les coefficients partagent les mêmes « unités » et sont facilement régularisés, évite efficacement le sur-apprentissage. Même les polynômes de haut degré produisent d'excellents ajustements en utilisant la base de Bernstein, nécessitant un réglage minimal des hyperparamètres.

Lire plus