Kaggle-Wettbewerb: Eine verzerrte Metrik und die unerwartete Effektivität von XGBoost
Der Autor nahm an einem Kaggle-Wettbewerb teil, um die Überlebenschancen nach einer Knochenmarktransplantation vorherzusagen. Die Bewertungsmetrik des Wettbewerbs ist ein geschichteter Konkordanzwert, der entwickelt wurde, um übermäßig unterschiedliche Vorhersagen für verschiedene ethnische Gruppen zu vermeiden. Diese Metrik weist jedoch Mängel auf: Die Verbesserung des Werts einer Gruppe verbessert nicht immer den Gesamtwert; sie kann ihn sogar senken. Bei der Verwendung eines XGBoost-Modells stellte der Autor fest, dass einfache Ensemble-Modelle von Entscheidungsbäumen effektiver waren als komplexe statistische Modelle, und untersuchte die Unterschiede zwischen statistischen und maschinellen Lernansätzen. Schließlich stellte der Autor fest, dass die Anpassung des Skalierungsparameters der AFT-Verteilung die Genauigkeit des Modells signifikant beeinflusste und stellte einige offene Fragen zur Verbesserung des Modells.