Muestreo de Big Data: Muestras pequeñas, grandes respuestas

2025-05-31
Muestreo de Big Data: Muestras pequeñas, grandes respuestas

En una entrevista reciente, Hadley Wickham destacó que muchos problemas de big data son, en realidad, problemas de datos pequeños, dado el subconjunto, muestra o resumen correctos. Esta publicación profundiza en el muestreo eficiente para el análisis de big data. Utilizando el ejemplo de Goatly, una empresa que atiende cabras narcolépticas, el autor demuestra cómo calcular el tamaño de muestra apropiado para la regresión logística. La conclusión es que se necesitan aproximadamente 2345 muestras para representar con precisión 100.000 granjas. La publicación también detalla scripts de Python y herramientas online para el cálculo del tamaño de la muestra, y trata brevemente el concepto de potencia estadística.