1. 5000만명 중 638만 가구에서 애완동물을 키운다?
농림축산식품부는 '2020년 동물보호에 대한 국민 의식 조사'에서 전국 638만 가구에서 애완동물을 키운다고 발표했다.
이 조사는 638만 가구 모두에게 답을 들어 알 수 있었을까?
당연히 그렇지 않다. 국민 5000명을 대상으로 의견을 구한 표본조사이다.
이처럼 전체 인구에 대한 답을 일부 값으로부터 추론하는 방법이 통계학의 주요 관심사이다.
한 나라의 통계 지표나 기업의 데이터로부터 계산된 통계는 부분으로 전체를 설명하려는 노력의 일환인 경우가 많다.
그렇다면 5000명의 표본이 우리나라 전체 인구를 대표할 수 있을까?
이 표본에 '우연히' 애완동물을 키우는 사람이 많았다면 그 답을 신뢰할 수 있을까?
2. 표본 조사의 비밀
통계학자는 표본 조사에서 결과가 어떻게 달라질 수 있을까 생각한다.
조사한 5000명 중 1595명이 애완동물을 키운다고 대답했다.
대략 2000만 가구 중 1595/5000 = 31.9%인 638만 가구가 애완동물을 키운다는 답을 구한다.
그런데 이 답이 정확할까?
만약 애완동물을 키우는 가구 비율이 사실은 30%이고, 5000가구의 표본을 '랜덤'하게 선정했다면 어떤 조사 결과가 나올 수 있었을까?
다섯 가구의 표본을 선정한다고 하자.
이 표본이 우연히 애완동물을 키우는 가구만으로 이루어질 수 있을까?
가능하다. 다섯 가구 표본 중 첫번째 가구가 우연히 애완동물을 키울 확률은 30%이다.
두번째 가구부터 다섯번째 가구까지 애완동물을 키울 확률 또한 각각 30%이다.
따라서 표본에 선정된 다섯 가구 모두 애완동물을 키우고 있을 확률은 30%*30%*30%*30%*30% = 0.243%로 매우 작다.
표본 선정을 1만번 한다면 그 중 24번밖에 나오지 않는 매우 드문 일이다.
다시 말하면 다섯 가구만 조사했을 때 100% 애완동물을 키운다는 믿지 못할 결과는 매우 드물게 나온다.
표본 조사가 망할 확률은 매우 낮다는 뜻이다.
그렇다면 다섯 가구 중 한 가구만 애완동물을 키우고 있을 확률은 얼마일까?
무려 36%이다. 한 가구만 30%확률로 애완동물을 키우고, 나머지 네 가구는 70%확률로 애완동물이 없다.
이런 표본이 우연히 뽑힐 확률은 30%*70%*70%*70%*70% = 7.2%인데,
애완동물을 키우는 한 가구가 표본의 다섯 가구 중 하나라도 해당할 수 있으므로 다섯 가지 경우의 수가 있다.
따라서 5*7.2% = 36%이다.
모든 경우를 나열하면 다음과 같다.
표본 중 애완동물 양육 가구 수 | 조사 결과(애완동물 양육 가구 비율) | 조사 결과가 나올 가능성(확률) |
0 | 0% | 16.8% |
1 | 20% | 36.0% |
2 | 40% | 30.9% |
3 | 60% | 13.2% |
4 | 80% | 2.8% |
5 | 100% | 0.243% |
계 | 100% |
다섯 가구만 조사한 표본 조사의 조사된 비율이 정확히 30%가 될 수 없지만 가장 가까운 20%(다섯 가구 중 한 가구) 또는 40%(다섯 가구 중 두 가구)의 조사 결과는 66.9%라는 상당히 높은 확률로 나온다.
물론 실제와 동떨어진 0 또는 60~100%의 믿지 못할 결과도 3번 중 1번 나오므로 정확한 조사라고 할 수 없다.
표본 수가 5000이었다면 어떨까?
가능한 조사 결과가 무려 5001가지이므로 전체를 표로 정리할 방도는 없다.
몇 가지 경우만 보도록 하자. 5000가구 중 애완동물 양육 가구 수가 0가구로 조사될 가능성은 없다.
조사 결과가 0/5000이 나올 확률은 3/10을 5000번 곱한 값이다.
상상하기 어려울 만큼 작은 값이므로 0이라고 보면 된다.
조사 결과가 20%이하로 나올 확률 역시 매우 낮아서 0과 다르지 않다.
다섯가구가 표본이었을때는 20% 이하일 확률이 52.8%(16.8 + 36.0)이다.
5000가구의 조사 결과는 다섯가구의 조사 결과보다 훨씬 더 정확하다.
조사 결과가 참값인 30% 주변인 28~32% 사이에서 나올 확률은 무려 99%이다.
5000가구 조사는 오차 2%밖에 되지 않는다.
오차가 작으니 매우 정확한가? 아니면 오차가 무려 2%나 되는 부정확한 조사인가?
3. 통계학자처럼 생각하기
농림축산식품부의 실제 조사 결과는 31.9%였다.
오차가 2%이므로 참값이 30%일 때에도 충분히 나올 법한 조사 결과이다.
그렇다면 참값(실제 대한민국의 애완동물 양육 가구 비율)은 실제로 30%인가?
여기에 답하기 위해 다른 참값을 상상해보자.
여기서 참값은 절대로 파악할 수 없는 미지수이다.
우리는 그 미지수를 데이터로 추정할 뿐이다.
만약 참값이 31%라고 가정한 뒤, 위 계산을 반복하면 이번엔 참값 31% 주변인 29~33% 사이의 조사 결과가 나올 확률이 99%이다.
조사 결과 31.9%는 실제 비율이 30%일 때도 31%일 때도 충분히 나올 법한 값이다.
그렇다면 참값은 무엇일까? 31%일까? 아니면 조사 결과 그대로인 31.9%일까?
표본 조사의 결과는 확실하지 않다.
아무리 정확한 조사여도 몇 퍼센트 오차는 언제나 수반한다.
따라서 정확하지 않은 데이터에 기반한 참값에 대한 추론 역시 불확실할 수밖에 없다.
통계학자는 이 불확실성을 인정하고, 주어진 조사 결과를 해석하는 데 매우 신중하다.
어떤 표본이 선정되느냐에 따라 데이터가 달라지기 때문이다.
데이터가 어떻게, 얼마나 달라질 수 있었을까?
통계학자처럼 생각하려면 먼저 이 질문부터 던지도록 하자.

'책 읽기 > 수학보다 데이터 문해력' 카테고리의 다른 글
16장 여론조사가 틀리는 이유 (0) | 2023.12.21 |
---|---|
15장 표본조사의 불확실성 (0) | 2023.12.20 |
13장 홍차 감별 속에 숨겨진 통계학의 핵심 아이디어 (0) | 2023.12.18 |
12장 내일도 해는 동쪽에서 뜰까 (0) | 2023.12.15 |
11장 경험에 의한 믿음의 변화 (0) | 2023.12.14 |