데이터 해석학5 -오차와 확률분포-

1. 데이터의 변동 파악

 

측정 결과가 우연오차에 의해 변동이 생긴다고 하지만, 이 변동을 어떻게 다루어야할까?

 

몸무게의 참값이 50kg인 A가 몸무게를 10번 측정한 경우를 생각해보자.

 

 

편향은 무시하고, 우연오차만 결과에 영향을 미친다고 가정하자.

 

이 우연오차의 특징을 파악하기 위해 측정을 10000번 반복한다.

 

결과를 단순히 수직선 위에 그리면 보기 어렵기 때문에 히스토그램을 사용하여 표시

 

막대의 폭(구간)을 0.02kg으로 설정하고, 그 안에 들어간 데이터의 개수를 높이로 표시한다.

 

분할된 각 구간을 bin이라고 한다.

 

 

 

예를 들면, 측정된 값이 50.00~50.02kg의 범위에 포함된 횟수가 771번 처럼 전체를 세세하게 나눠서 세고 있다.

 

이 히스토그램은 산 모양을 나타내고 있는데, 이 측정을 계속 반복하고 분할하는 구간의 크기를 좀 더 세밀하게 한다면...

 

 

이 곡선을 확률분포(probability distribution)라고 한다.

 

어떤 값이 어느 정도의 빈도로 관측되는지를 표현한 것이다.

 

 

2. 배후에 있는 참 분포를 생각한다

 

데이터의 변동의 특징을 파악하기 위한 첫 단계로는, 

 

"어떤 확률분포가 존재한다고 가정하고, 실제 데이터는 이 확률분포로부터 확률적으로 얻어졌다고 생각하는 것"

 

"확률적으로 얻어졌다"는 것은 어떤 뜻일까

 

주사위를 던져서 나온 숫자를 관측하는 것을 생각하면 이해하기 쉽다.

 

주사위를 던져서 숫자를 하나 얻는 것처럼 확률분포를 하나 지정하고 거기에서 값을 하나 무작위로 추출하는 것이다.

 

이렇게 무작위로 얻어진 값을 가지는 변수를 확률변수(random variable)라고 한다.

 

실제 데이터가 이렇게 얻어졌다고 가정하고 배후에 있는 확률분포를 조사하면 우연오차에 대한 정보를 어느정도 알 수 있다.

 

실제 우연오차가 정말로 확률분포에 움직이는지는 단정지을수는 없다.

 

디지털 체중계의 경우 동일한 사람을 측정할 때, 매번 자세가 미묘하게 다르거나 기온, 건전지의 남은 양에 의해 전자회로의 상태가 바뀌어 오차가 생길 수 있다.

 

이렇게 통제할 수 없는 여러 요인의 변화가 변동의 원인이 되는 것이지, 실제로 체중계의 회로에 확률분포가 존재해서 오차를 일으키는 것은 아니다.

 

여러 요인에 의한 변동을 하나의 알수없는 확률분포로 가정하는 것이다.

 

TAGS.

Comments