Competição Kaggle: Uma Métrica Tendenciosa e o Poder Inesperado do XGBoost

2025-02-23

O autor participou de uma competição Kaggle para prever as chances de sobrevivência após um transplante de medula óssea. A métrica de avaliação da competição é uma pontuação de concordância estratificada, projetada para evitar previsões excessivamente diferentes para diferentes grupos raciais. No entanto, essa métrica tem falhas: melhorar a pontuação de um grupo nem sempre melhora a pontuação geral; pode até diminuí-la. Ao usar um modelo XGBoost, o autor descobriu que modelos de ensemble de árvores de decisão simples eram mais eficazes do que modelos estatísticos complexos e explorou as diferenças entre abordagens estatísticas e de aprendizado de máquina. Finalmente, o autor descobriu que ajustar o parâmetro de escala da distribuição AFT impactou significativamente a precisão do modelo e propôs algumas questões abertas para melhorar o modelo.

Desenvolvimento