Kaggle 경진대회: 편향된 지표와 XGBoost의 예상치 못한 효과
2025-02-23
저자는 골수 이식 후 생존율을 예측하는 Kaggle 경진대회에 참가했습니다. 경진대회의 평가 지표는 서로 다른 인종 그룹 간의 예측에 과도한 차이가 발생하지 않도록 설계된 계층화된 콘코던스 지수입니다. 그러나 이 지표에는 결함이 있습니다. 특정 그룹의 점수를 향상시켜도 전체 점수가 항상 향상되는 것은 아니며, 오히려 감소할 수도 있습니다. XGBoost 모델을 사용하는 과정에서 저자는 복잡한 통계 모델보다 간단한 의사결정 트리 앙상블 모델이 더 효과적이라는 것을 발견하고, 통계적 방법과 기계 학습 방법의 차이점을 탐구했습니다. 마지막으로 저자는 AFT 분포의 척도 매개변수를 조정함으로써 모델의 정확도에 큰 영향을 미친다는 것을 발견하고, 모델 개선을 위한 몇 가지 미해결 과제를 제시했습니다.
개발