让你的多项式特征与数据分布完美对齐

2025-08-26
让你的多项式特征与数据分布完美对齐

本文探讨了在机器学习中使用多项式特征时,如何使特征与数据分布对齐以提高模型性能。作者指出,正交基产生的特征在数据均匀分布时信息量最大,但实际数据并非如此。文章介绍了两种方法:一是通过映射技巧,将数据映射到均匀分布后再使用正交基;二是通过乘以一个精心选择的函数,改变正交基的权重函数,使其与数据分布对齐。第一种方法更实用,只需使用Scikit-Learn的QuantileTransformer即可实现;第二种方法更复杂,需要更深入的数学知识和更细致的调整。实验结果表明,使用第一种方法生成的近似正交特征,在加州房屋数据集上的线性回归模型中表现优于传统的最小-最大缩放方法。

阅读更多

高阶多项式拟合的神话:伯恩斯坦基的优雅解法

2025-04-22
高阶多项式拟合的神话:伯恩斯坦基的优雅解法

传统观点认为高阶多项式在机器学习中易过拟合且难以控制。然而,这篇文章挑战了这一观点。作者指出,问题并非高阶多项式本身,而是使用了不合适的基函数,例如标准基。文章通过实验对比了标准基、切比雪夫基和勒让德基与伯恩斯坦基在拟合带噪声数据时的表现。结果表明,伯恩斯坦基由于其系数具有相同的“单位”且易于正则化,能有效避免过拟合,即使是高阶多项式也能获得良好的拟合效果,无需复杂的超参数调整。

阅读更多