15장 표본조사의 불확실성

1. 표본선정이 수반하는 불확실성

 

통계학의 데이터는 전체가 아닌 부분이다.

 

부분으로부터 결론을 내리기 때문에 언제나 불확실성을 수반한다.

 

여론조사는 전체 국민 중 일부를 무작위로 선정한다.

 

오늘 우연히 전화를 받아 여론조사에 응한 국민 1000명은 만약 오늘이 다시 시작되었다면, 전화를 받지 못하거나

 

전화가 오더라도 다른 일이 있어 응답하지 않을 수 있다.

 

통계에서 데이터는 이처럼 무한히 많은 하루하루의 서로 다를 수 있는 값 중 하나일 뿐이다.

 

우리가 가진 데이터는 우연의 산물이다.

 

그러니 우연한 값일 뿐인 데이터 그 자체보다 그 안에 숨어 있는 신호를 파악하는 것이 중요하다.

 

통계학에서는 전체를 모집단이라고 부른다.

 

영어로 하면 population, 인구 또는 모든 사람이라는 뜻이다.

 

그리고 이 모집단 일부가 우연히 관측되는 것을 표본이라고 부른다. 

 

더 정확하게 표현하면 표본의 선정 과정이 랜덤일 때, 랜덤 표본 또는 무작위 표본이라고 한다.

 

우연의 요소가 배제된 표본 선정 방법도 있다.

 

오늘 하루만 기억하는 우리는 여론 조사의 표본 1000명으로부터 계산한 비율 50%만 보게 되지만

 

만약 오늘 하루를 다시 산다면 이 값이 40%나 45%일 수도 있다.

 

이 불확실성의 패턴을 파악하는 것이 곧 통계적 추론의 시작이다.

 

2. 전수조사에는 불확실성이 없는가

 

어떤 데이터는 전체를 온전히 담고 있다.

 

대한민국 고등학생의 학습 정도를 평가하는 '전국연합학력평가'는 고등학교에 다니는 모든 학생이 보는 시험이다.

 

일종의 전수조사이다.

 

그렇다면 표본 즉 데이터가 전체라면, 그 데이터에는 불확실성이 없을까?

 

한 나라의 경제력을 함축하는 국내총생산(GDP)은 일반적으로 표본조사가 아니라 전수조사의 결과로 측정한다.

 

그 나라의 모든 경제 주체, 즉 모집단 전체를 관측해 계산한 값이 곧 GDP이며 이 값은 달라질 수 없다.

 

오늘을 다시 산다고 해도 표본 선택으로 인해 달라질 것이 없다.

 

얼마 전 미국의 과학잡지 <사이언스>에는 동아시아 국가들의 가파른 성장이 수학, 과학 교육과 높은 상관관계를 가진다는 주장이 실렸다.

 

교육 정도가 높을수록 성장률도 높다는 주장이다.

 

이 주장을 펼친 미국의 경제학자이자 스탠퍼드 대학교 교수인 에릭 하누셰크의 근거는 다음과 같다.

 

 

 

국가별 수학 과학 점수와 GDP 성장률은 한 값이 클 때 다른 값도 큰 경향이 있다는 것이다.

 

'회귀분석'을 이용해 추세를 살펴보니 나라별 GDP 성장률의 변화 73%(결정계수)만큼 나라별 학생들의 수학 과학 점수로 설명할 수 있다고 한다.

 

이 73%는 얼마나 정확한 값일까? 또는 얼마나 불확실한 값일까?

 

73%라는 값의 근거인 데이터 중 수학, 과학 점수는 일부 학생의 점수이다.

 

만약 다른 학생들이 표본으로 선정되었다면 달라질 수 있는 값이다.

 

그렇다면 GDP 성장률은 어떤가?

 

연구 대상인 동아시아와 라틴아메리카 국가들은 모두 데이터에 포함되어 있다.

 

GDP 성장률 역시 그 나라의 전수조사 결과이다. 표본이 곧 전체이므로 오늘을 다시 산다고 해도 표본이 달라질 수 없는 값이다.

 

그러나 통계적 추론의 불확실성은 단순히 표본 선정의 임의성에만 기인하지 않는다. 

 

'대한민국 GDP가 어떻게 달라질 수 있었을까?' 생각해보자. 

 

오늘 하루를 다시 살아 달라지지 않는다면 올 한해를 다시 살 수도 있다.

 

한 해를 무한히 반복해 산다면 대한민국 GDP는 한 해를 다시 살때마다 우연히 다르게 나올 수 있는 값중 하나일 것이다.

 

물론 시간을 거스를 수 없는 우리에게 GDP는 바뀔 수 없는 값이다.

 

하지만 GDP 성장률 몇 퍼센트를 수학 과학 점수로 설명할 수 있는지 추론할 때는 시간을 반복하는 사고 실험이 도움이 된다.

 

TAGS.

Comments