다항식 특징과 데이터 분포의 정렬: ML에서의 어텐션-정렬 문제

2025-08-26
다항식 특징과 데이터 분포의 정렬: ML에서의 어텐션-정렬 문제

이 글에서는 기계 학습 모델 성능 향상을 위해 다항식 특징과 데이터 분포의 정렬을 탐구합니다. 직교 기저는 데이터가 균일하게 분포되어 있을 때 정보량이 많은 특징을 생성하지만, 실제 데이터는 그렇지 않습니다. 두 가지 접근 방식이 제시됩니다. 하나는 직교 기저를 적용하기 전에 데이터를 균일 분포로 변환하는 매핑 기법입니다. 다른 하나는 신중하게 선택된 함수를 곱하여 직교 기저의 가중치 함수를 조정하여 데이터 분포에 맞추는 것입니다. 전자는 Scikit-Learn의 QuantileTransformer로 구현할 수 있는, 보다 실용적인 방법입니다. 후자는 더 복잡하며, 심오한 수학적 이해와 미세 조정이 필요합니다. 캘리포니아 주택 데이터 세트 실험에서 전자의 방법으로 생성된 준 직교 특징량이 기존의 최소-최대 스케일링보다 선형 회귀에서 더 우수한 성능을 보였습니다.

더 보기

회귀 분석에서 고차 다항식의 신화: 베르누이 기저를 이용한 우아한 해결책

2025-04-22
회귀 분석에서 고차 다항식의 신화: 베르누이 기저를 이용한 우아한 해결책

기계 학습에서 고차 다항식은 과적합되기 쉽고 제어하기 어렵다는 일반적인 통념에 대해 이 글에서는 이의를 제기합니다. 저자는 문제가 고차 다항식 자체가 아니라 표준 기저와 같은 부적절한 기저 함수의 사용에 있다고 주장합니다. 노이즈가 있는 데이터에 대한 적합성 측면에서 표준 기저, 체비셰프 기저, 르장드르 기저와 베르누이 기저를 비교한 실험 결과, 베르누이 기저는 계수가 동일한 '단위'를 가지고 쉽게 정규화될 수 있기 때문에 과적합을 효과적으로 방지하는 것으로 나타났습니다. 고차 다항식이라도 베르누이 기저를 사용하면 우수한 적합성을 얻을 수 있으며, 하이퍼파라미터 조정은 최소한으로 줄일 수 있습니다.

더 보기