14장 데이터는 어떻게, 얼마나 달라질 수 있었을까?

1. 5000만명 중 638만 가구에서 애완동물을 키운다?

 

농림축산식품부는 '2020년 동물보호에 대한 국민 의식 조사'에서 전국 638만 가구에서 애완동물을 키운다고 발표했다.

 

이 조사는 638만 가구 모두에게 답을 들어 알 수 있었을까?

 

당연히 그렇지 않다. 국민 5000명을 대상으로 의견을 구한 표본조사이다.

 

이처럼 전체 인구에 대한 답을 일부 값으로부터 추론하는 방법이 통계학의 주요 관심사이다.

 

한 나라의 통계 지표나 기업의 데이터로부터 계산된 통계는 부분으로 전체를 설명하려는 노력의 일환인 경우가 많다.

 

그렇다면 5000명의 표본이 우리나라 전체 인구를 대표할 수 있을까?

 

이 표본에 '우연히' 애완동물을 키우는 사람이 많았다면 그 답을 신뢰할 수 있을까?

 

 

2. 표본 조사의 비밀

 

통계학자는 표본 조사에서 결과가 어떻게 달라질 수 있을까 생각한다.

 

조사한 5000명 중 1595명이 애완동물을 키운다고 대답했다.

 

대략 2000만 가구 중 1595/5000 = 31.9%인 638만 가구가 애완동물을 키운다는 답을 구한다.

 

그런데 이 답이 정확할까?

 

만약 애완동물을 키우는 가구 비율이 사실은 30%이고, 5000가구의 표본을 '랜덤'하게 선정했다면 어떤 조사 결과가 나올 수 있었을까?

 

다섯 가구의 표본을 선정한다고 하자.

 

이 표본이 우연히 애완동물을 키우는 가구만으로 이루어질 수 있을까?

 

가능하다. 다섯 가구 표본 중 첫번째 가구가 우연히 애완동물을 키울 확률은 30%이다.

 

두번째 가구부터 다섯번째 가구까지 애완동물을 키울 확률 또한 각각 30%이다.

 

따라서 표본에 선정된 다섯 가구 모두 애완동물을 키우고 있을 확률은 30%*30%*30%*30%*30% = 0.243%로 매우 작다.

 

표본 선정을 1만번 한다면 그 중 24번밖에 나오지 않는 매우 드문 일이다.

 

다시 말하면 다섯 가구만 조사했을 때 100% 애완동물을 키운다는 믿지 못할 결과는 매우 드물게 나온다.

 

표본 조사가 망할 확률은 매우 낮다는 뜻이다.

 

그렇다면 다섯 가구 중 한 가구만 애완동물을 키우고 있을 확률은 얼마일까?

 

무려 36%이다. 한 가구만 30%확률로 애완동물을 키우고, 나머지 네 가구는 70%확률로 애완동물이 없다.

 

이런 표본이 우연히 뽑힐 확률은 30%*70%*70%*70%*70% = 7.2%인데,

 

애완동물을 키우는 한 가구가 표본의 다섯 가구 중 하나라도 해당할 수 있으므로 다섯 가지 경우의 수가 있다.

 

따라서 5*7.2% = 36%이다. 

 

모든 경우를 나열하면 다음과 같다.

 

표본 중 애완동물 양육 가구 수 조사 결과(애완동물 양육 가구 비율) 조사 결과가 나올 가능성(확률)
0 0% 16.8%
1 20% 36.0%
2 40% 30.9%
3 60% 13.2%
4 80% 2.8%
5 100% 0.243%
100%

 

 

다섯 가구만 조사한 표본 조사의 조사된 비율이 정확히 30%가 될 수 없지만 가장 가까운 20%(다섯 가구 중 한 가구) 또는 40%(다섯 가구 중 두 가구)의 조사 결과는 66.9%라는 상당히 높은 확률로 나온다.

 

물론 실제와 동떨어진 0 또는 60~100%의 믿지 못할 결과도 3번 중 1번 나오므로 정확한 조사라고 할 수 없다.

 

표본 수가 5000이었다면 어떨까?

 

가능한 조사 결과가 무려 5001가지이므로 전체를 표로 정리할 방도는 없다.

 

몇 가지 경우만 보도록 하자. 5000가구 중 애완동물 양육 가구 수가 0가구로 조사될 가능성은 없다.

 

조사 결과가 0/5000이 나올 확률은 3/10을 5000번 곱한 값이다.

 

상상하기 어려울 만큼 작은 값이므로 0이라고 보면 된다.

 

조사 결과가 20%이하로 나올 확률 역시 매우 낮아서 0과 다르지 않다.

 

다섯가구가 표본이었을때는 20% 이하일 확률이 52.8%(16.8 + 36.0)이다.

 

5000가구의 조사 결과는 다섯가구의 조사 결과보다 훨씬 더 정확하다.

 

조사 결과가 참값인 30% 주변인 28~32% 사이에서 나올 확률은 무려 99%이다.

 

5000가구 조사는 오차 2%밖에 되지 않는다.

 

오차가 작으니 매우 정확한가? 아니면 오차가 무려 2%나 되는 부정확한 조사인가?

 

 

3. 통계학자처럼 생각하기

 

농림축산식품부의 실제 조사 결과는 31.9%였다.

 

오차가 2%이므로 참값이 30%일 때에도 충분히 나올 법한 조사 결과이다.

 

그렇다면 참값(실제 대한민국의 애완동물 양육 가구 비율)은 실제로 30%인가?

 

여기에 답하기 위해 다른 참값을 상상해보자.

 

여기서 참값은 절대로 파악할 수 없는 미지수이다.

 

우리는 그 미지수를 데이터로 추정할 뿐이다

 

만약 참값이 31%라고 가정한 뒤, 위 계산을 반복하면 이번엔 참값 31% 주변인 29~33% 사이의 조사 결과가 나올 확률이 99%이다.

 

조사 결과 31.9%는 실제 비율이 30%일 때도 31%일 때도 충분히 나올 법한 값이다.

 

그렇다면 참값은 무엇일까? 31%일까? 아니면 조사 결과 그대로인 31.9%일까?

 

표본 조사의 결과는 확실하지 않다. 

 

아무리 정확한 조사여도 몇 퍼센트 오차는 언제나 수반한다. 

 

따라서 정확하지 않은 데이터에 기반한 참값에 대한 추론 역시 불확실할 수밖에 없다.

 

통계학자는 이 불확실성을 인정하고, 주어진 조사 결과를 해석하는 데 매우 신중하다.

 

어떤 표본이 선정되느냐에 따라 데이터가 달라지기 때문이다.

 

데이터가 어떻게, 얼마나 달라질 수 있었을까?

 

통계학자처럼 생각하려면 먼저 이 질문부터 던지도록 하자.

 

 

 

TAGS.

Comments