Big-Data-Sampling: Kleine Stichproben, große Antworten
2025-05-31
In einem kürzlich geführten Interview betonte Hadley Wickham, dass viele Big-Data-Probleme tatsächlich kleine Datenprobleme sind, wenn man die richtige Teilmenge, Stichprobe oder Zusammenfassung hat. Dieser Beitrag befasst sich mit dem effizienten Sampling für die Big-Data-Analyse. Am Beispiel von Goatly, einem Unternehmen, das narcoleptische Ziegen betreut, zeigt der Autor, wie man die geeignete Stichprobengröße für die logistische Regression berechnet. Die Schlussfolgerung ist, dass etwa 2345 Stichproben benötigt werden, um 100.000 Farmen genau zu repräsentieren. Der Beitrag beschreibt auch Python-Skripte und Online-Tools zur Berechnung der Stichprobengröße und geht kurz auf das Konzept der statistischen Power ein.