La Douzaine de Datasaurus : Exposer les Pièges des Statistiques

2024-12-17

Treize ensembles de données, des statistiques descriptives simples presque identiques, mais des distributions et des visualisations très différentes ! C'est la fascinante douzaine de Datasaurus. Composée d'un ensemble de données en forme de dinosaure et de douze autres aux formes variées, elles partagent toutes presque les mêmes moyennes, variances et corrélations. Cela démontre puissamment le danger de se fier uniquement aux statistiques descriptives de base ; la visualisation est cruciale. La douzaine de Datasaurus sert d'avertissement, incitant les analystes de données à prioriser la visualisation avant l'analyse pour éviter des conclusions trompeuses.