Amostragem de Big Data: Pequenas Amostras, Grandes Respostas

Em uma entrevista recente, Hadley Wickham destacou que muitos problemas de big data são, na verdade, problemas de pequenos dados, dado o subconjunto, amostra ou resumo corretos. Este artigo mergulha na amostragem eficiente para análise de big data. Usando o exemplo da Goatly, uma empresa que atende cabras narcolépticas, o autor demonstra como calcular o tamanho de amostra apropriado para regressão logística. A conclusão é que aproximadamente 2345 amostras são necessárias para representar com precisão 100.000 fazendas. A publicação também detalha scripts Python e ferramentas online para cálculo do tamanho da amostra e aborda brevemente o conceito de poder estatístico.
Leia mais