让你的多项式特征与数据分布完美对齐
2025-08-26

本文探讨了在机器学习中使用多项式特征时,如何使特征与数据分布对齐以提高模型性能。作者指出,正交基产生的特征在数据均匀分布时信息量最大,但实际数据并非如此。文章介绍了两种方法:一是通过映射技巧,将数据映射到均匀分布后再使用正交基;二是通过乘以一个精心选择的函数,改变正交基的权重函数,使其与数据分布对齐。第一种方法更实用,只需使用Scikit-Learn的QuantileTransformer即可实现;第二种方法更复杂,需要更深入的数学知识和更细致的调整。实验结果表明,使用第一种方法生成的近似正交特征,在加州房屋数据集上的线性回归模型中表现优于传统的最小-最大缩放方法。