표집분포(sampling distribution)와 표본분포(sample distribution)

1. 모집단이란?(population)

 

연구자가 관심있어하는 주제를 모두 나타낼 수 있는 개인이나 어떤 값의 전체 모임

 

대한민국 사람들의 평균키를 조사하고 싶을 때?

 

전체 대한민국 사람들이 모두 대상이 되는데 이것이 population distribution

 

-----------------------------------------------------------------------------------------------------------

모집단은 생각보다 미묘한 개념일 수 있다

 

어떤 표본을 추출할 수 있는 모집단에는 3가지 유형이 있다

 

1) 말 그대로의 모집단: 한 예로 여론조사에서 무작위로 한 명을 뽑는, 확인 가능한 집단이 있다.

 

관측 가능한 개인들로 구성된 집단도 여기에 해당한다. 실제로는 무작위로 한 명을 뽑는 대신 지원자로부터 데이터를 얻기도 한다.

 

예를 들어 젤리 개수 맞추기에 참가한 사람들은 유튜브를 시청하는 수학 괴짜들(모집단)에서 나온 하나의 표본으로 간주할 수 있다.

 

2) 가상의 모집단: 혈압을 재거나 대기 오염을 측정하는 것처럼 기기를 가지고 측정하는 경우를 생각해 보자.

 

혈압 측정을 여러 번 반복하면 금방 알 수 있듯이, 이런 측정은 항상 더 많이 할 수 있고 매번 약간씩 달라진 값을 얻을 수 있다.

 

여러 번 측정한 값들이 비슷할지는 기계의 정확도와 상황의 안정성에 달려 있다.

 

이때 우리가 얻은 측정값을, 시간이 충분했다면 얻었을 모든 측정값들로 구성된 가상의 모집단에서 뽑아낸 것이라고 생각할 수 있다

 

3) 비유적 모집단: 여기서 더 큰 모집단은 없다. 이것은 흔치 않은 개념이기는 하다.

 

여기서 우리는 어떤 측정값을 모집단에서 무작위로 추출한 것처럼 간주하기도 하지만 실제론 그렇지 않다. 

 

심장 수술을 받은 아이들의 경우처럼 말이다. 어떤 표본 추출도 없었고 모든 데이터가 갖춰져 있었으며, 더 모을 데이터도 없다.

 

매년 일어나는 살인 사건 수, 특정 부류에 관한 전수 조사, 또는 전 세계 모든 나라에 관한 데이터를 생각해보자.

 

이들 중 어느 것도 실제 모집단으로부터의 표본이라고 간주할 수 없다

 

우리가 관찰한 것이 어떤 상상의 세계로부터 임의로 선택된 것이라고 이해하는게 그나마 최선일지도 모른다.

 

만약 지금의 세계를 역사가 다르게 전개되었더라면 생겨났을 수많은 상상의 세계들 가운데서

 

우연에 의해 귀결된 한 상태라고 여긴다면 비유적 모집단은 다른 대안 역사들의 집합체가 된다.

 

출처: 숫자에 약한 사람들을 위한 통계학 수업(데이비드 스피겔할터)

------------------------------------------------------------------------------------------------------------------------

 

 

모집단의 특성(characteristic)을 나타내는 어떠한 값들을 모수(parameter)라고 부른다

 

집단의 특성값들은 mean(평균), variance(분산), proportion(비율), percentile(분위수), median(중앙값), standard deviation(표준편차), ........... 등등

 

사실 많은 사람들이, 통계 초보자등 착각하는 것이 확률분포라고 하면

 

이항분포, 정규분포, 포아송분포, 카이제곱분포 등등 이런것만 생각한다(나도 그랬음)

 

확률변수의 확률분포라고하면 저런 특성값(평균,분산 등등)들도 심지어 집단의 실제

 

VALUE들도 모두 포함하는 개념이다.

 

 

2. sample distribution

 

모집단의 부분집합이 sample이다.. 어떤 확률분포 D를 가지는 하나의 모집단에서

 

적절한 방식으로 추출하면 표본의 크기가 n인 모집단의 부분집합 sample을 얻을 수 있다.

 

 

마찬가지로 각 sample1,2,3에서 각각 평균, 표본표준편차, 표본비율 등등의

 

특성값을 계산할 수 있는데

 

실제 실현치 이런 것들을 모두 포함해서 sample distribution이라고 부른다..

 

말 그대로 표본의 분포다..

 

 

3. Sampling distribution

 

각 표본의 크기가 nsample 1,2,3 각각에 들어간 n개의 실현치로

 

평균, 표본표준편차, 표본비율 등등을 계산할 수 있는데 이런 각 sample의 특성값을 통계량(statistic)이라고 부른다

 

다시 말해 통계량은 sample의 함수 S(X1,X2,X3,...,XN)이다.

 

그리고 이 통계량의 분포를 sampling distribution이라고 부른다..

 

통계량은 확률변수이다.. 다시 말해 각 sample 1,2,3 마다 평균을 계산하면 똑같은 '평균'이라는 것을 계산하는데도 다 다르지 않은가??

 

그렇기 때문에 통계량은 확률분포를 갖는다.

 

4. sampling distributionsample distribution은 무슨 차이인가

 

모집단 X가 평균이 $\mu$이고 분산이 $\sigma^{2}$인 어떤 확률분포를 따르고

 

여기서 표본의 크기가 n인 표본을 랜덤추출(random sample, 서로 독립이고 동일한 분포를 따름)했을 때  

 

$X _{1} ,X _{2} ,X _{3} ,X _{4} ,....,X _{n}$이 각각 평균이 $\mu$, 분산이 $\sigma^{2}$확률분포를 따른다

 

sample distribution은 $X _{1} ,X _{2} ,X _{3} ,X _{4} ,....,X _{n}$각각이 가지는 분포이다..

 

 

 

앞에서도 이야기했지만 분포라는 것은 광범위한 느낌으로

 

확률변수가 가질 수 있는 $X_{1} = x_{1}$ 값들에 평균이 $\mu$이고 분산이 $\sigma^{2}$어떠한 특정한 확률분포(이항분포, 포아송분포 등등)을 전부 포함함

 

근데 n을 아무리 크게 해도 $X _{1} ,X _{2} ,X _{3} ,X _{4} ,....,X _{n}$각각이 정규분포를 따르는가??? 그것은 아니다..

 

n=100000000000000000000000000000000000000000000000000000000이거나

 

n=3이거나

 

$X _{1} ,X _{2} ,X _{3} ,X _{4} ,....,X _{n}$ 각각이 가지는 분포에 아무런 변화가 없다

 

여전히 각각은 평균이 $\mu$ 분산이 $\sigma^{2}$ 등의 분포를 가진다

 

-----------------------------------------------------------------------------------------------------------

 

 

sampling distribution은 조금 개념이 다르다

 

$\frac{\sigma  ^{2}}{n}$은 $X _{1} ,X _{2} ,X _{3} ,X _{4} ,....,X _{n}$들의 표본평균 $\frac{1}{n} \sum _{i=1} ^{n} X _{i} = {\bar{X}}$의 분산이다

 

 

근데 $\frac{1}{n} \sum_{i=1}^{n} X_{i} = \bar{X}$ 하나의 값인데 분산을 어떻게 구함???

 

 

분산은 여러개의 값에서 구하는것인데??

 

 

물론 지금 $\frac{1}{n} \sum_{i=1}^{n} X_{i} = \bar{X}$ 은 확률변수이다

 

 

$\frac{1}{n} \sum_{i=1}^{n} X_{i} = \bar{X}$ 가 가질 수 있는 실현값들은 여러 가지다

 

 

$$X _{1} =x _{1}^{(1)} ,X _{2} =x _{2}^{(1)} ,X _{3} =x _{3}^{(1)} ,X _{4} =x _{4}^{(1)} ,....,X _{n} =x _{n}^{(1)}$$인 경우에 ${\bar{X}} _{1}$

 

$$X _{1} =x _{1}^{(2)} ,X _{2} =x _{2}^{(2)} ,X _{3} =x _{3}^{(2)} ,X _{4} =x _{4}^{(2)} ,....,X _{n} =x _{n}^{(2)}$$인 경우에 $\bar{X}_{2}$

 

이 과정을 n번 반복하여

 

$\bar{X}_{n}$ 까지 실현치를 얻으면 $\bar{X}_{1}, \bar{X}_{2}, ... \bar{X}_{n}$이라는 크기가 n인 하나의 집합이 있

 

여기서 계산한 분산이 $\frac{\sigma^{2}}{n}$

 

-------------------------------------------------------------------------------------------------------------------------

 

 

표본의 크기가 nsample $X _{1} ,X _{2} ,X _{3} ,X _{4} ,....,X _{n}$

 

이러면 각각 값은 random variable이니까 무슨 값을 가지는지 모른다

 

 

$X _{1} ,X _{2} ,X _{3} ,X _{4} ,....,X _{n}$으로 만든 표본평균 $\frac{1}{n} \sum_{i=1}^{n} X_{i} = \bar{X}$ 

 

(지금 역시 이 값도 random variable이고 이것이 가지는 분포가 sampling distribution)

 

n이 충분히 크면 $N(E( {\bar{X}} ),Var( {\bar{X}} ))$를 근사적으로 따른다. 이것이 중심극한정리이다..

 

 

그러니까 n=1000000000000000000000000000000000000000000000일때랑 n=3일때는 명백한 다른 성질이 하나 있다

 

random variablen=1000000000000000000000000000000000000000000000 $\frac{1}{n} \sum_{i=1}^{n} X_{i} = \bar{X}$  는 정규분포를 근사적으로 따르는데

 

n=3일 때는 $\frac{1}{n} \sum_{i=1}^{n} X_{i} = \bar{X}$  는 무슨 분포를 따르는지는 모른다

 

참고로 표본분산 통계량 $S ^{2} = \frac{1}{n-1} \sum _{i=1} ^{n} (X _{i} - {\bar{X}} ) ^{2}$도 따르는 분포가 있지만 중심극한정리와 전혀 무관하다

 

 

요약

 

1. 분포는 단순한 이름있는 확률분포들 포아송,이항 등등뿐만아니라 평균,분산 등 단순한 계산값들도 전부 포함하는 광범위한 개념이다.

 

 

2. 모집단에서 뽑은 크기가 n인 표본(sample)의 분포가 sample distribution이고

 

크기가 n인 표본은 각각 n개의 값들을 가질 수 있으니까

 

이것으로 계산한 통계량(statistics, 표본의 함수)random variable이니까 확률분포를 가진다.

 

이것을 sampling distribution이라 한다.

 

random variable???

 

크기가 n인 표본을 어떻게 추출하느냐 누가 추출하느냐 등등에 따라

 

각각이 가지는 n개의 값들은 전부 달라지기 때문에

 

 

3. sampling distribution일때는 중심극한정리가 성립한다. 표본의 크기 n이 충분히 크면

 

통계량 표본평균의 확률분포(sampling distribution)는 정규분포에 근사하지만

 

표본평균을 계산하기 전 표본 각각이 가지는 분포(sample distribution)

 

표본의 크기를 아무리 많이 뽑아봤자 정규분포와는 전혀 무관하다

 

 

 

 

표본의 크기 N이 매우 커지면 종모양형태를 따르다가 분산이 0이되면서 분포가 기댓값으로 수렴할 것이다

 

 

 

TAGS.

Comments