데이터사우루스 더즌: 통계의 함정 폭로

2024-12-17

13개의 데이터 세트는 거의 동일한 단순 기술 통계를 가지고 있지만, 분포와 시각화는 매우 다릅니다! 바로 매력적인 데이터사우루스 더즌입니다. 공룡 모양의 데이터 세트와 다양한 모양의 다른 12개 데이터 세트로 구성되며, 모두 거의 동일한 평균, 분산, 상관 관계를 공유합니다. 이는 기본적인 기술 통계에만 의존하는 위험을 명확하게 보여줍니다. 시각화가 필수적입니다. 데이터사우루스 더즌은 데이터 분석가에게 오해의 소지가 있는 결론을 피하기 위해 분석 전에 시각화를 우선시하도록 촉구하는 경고로 사용됩니다.