Échantillonnage de Big Data : Petits échantillons, grandes réponses
Lors d'une récente interview, Hadley Wickham a souligné que de nombreux problèmes de big data sont en fait des problèmes de petits données, étant donné le sous-ensemble, l'échantillon ou le résumé approprié. Cet article explore l'échantillonnage efficace pour l'analyse de big data. En utilisant l'exemple de Goatly, une entreprise qui sert des chèvres narcoleptiques, l'auteur montre comment calculer la taille d'échantillon appropriée pour la régression logistique. La conclusion est qu'environ 2345 échantillons sont nécessaires pour représenter avec précision 100 000 fermes. L'article détaille également des scripts Python et des outils en ligne pour le calcul de la taille de l'échantillon, et aborde brièvement le concept de puissance statistique.