빅데이터 샘플링: 작은 샘플, 큰 답변
2025-05-31

최근 인터뷰에서 Hadley Wickham은 적절한 하위 집합, 샘플 또는 요약이 주어지면 많은 빅데이터 문제가 실제로는 작은 데이터 문제라고 강조했습니다. 이 게시물은 빅데이터 분석에서 효율적인 샘플링을 자세히 살펴봅니다. 수면병에 걸린 염소에게 서비스를 제공하는 회사 Goatly의 예를 사용하여 저자는 로지스틱 회귀에 적합한 샘플 크기를 계산하는 방법을 보여줍니다. 결론적으로 10만 개의 농장을 정확하게 나타내려면 약 2345개의 샘플이 필요합니다. 이 게시물에서는 샘플 크기 계산을 위한 Python 스크립트와 온라인 도구에 대해 자세히 설명하고 통계적 검정력의 개념에도 간략하게 언급합니다.