데이터 해석학4 -우연오차와 편향-

1. 오차란

 

건강관리를 위해 매일 체중을 측정하고 기록하는 상황을 생각해보자.

 

실제 체중을 가능한한 정확하게 기록하고 싶지만, 정확한 체중계더라도 측정을 여러번 반복해보면 체중 값이 매번 조금씩 달라진다.

 

이런 상황을 '값에 변동이 있다'고 한다.

 

이 때, 진짜 체중의 값을 참값(true value)이라고 한다. 이 값은 절대 변하지 않는다.

 

그러므로 매번 체중계에서는 참값과는 다른 값이 표시되고 있다는 것이 된다.

 

좀 더 정확하게 측정하고 싶다면 입고 있는 옷의 무게도 빼야 한다는 것도 생각해야 한다.

 

이렇게 참값과 관측한 값의 차이를 오차(error)라고 한다.

 

 

2. 오차가 크면 정보가 사라진다

 

만일 체중계가 측정값이 측정할때마다 +-10kg씩 변동이 있다고 한다면, 매일 체중 변화를 기록하는데 아무 의미가 없다.

 

변동하는 값이 크면 클수록 얻은 정보는 아무 의미가 없는 것이다.

 

관측값에 포함된 오차가 측정하고 싶은 값의 변화 크기보다 큰 경우, 그 관측값만으로 직접 어떤 결론을 내리기가 어렵다.

 

하지만 데이터를 많이 모아서 오차의 특성을 평가한다면, 어느정도 추론이 가능한 경우도 있다.

 

 

3. 우연오차와 편향

 

오차에는 측정할때마다 변하는 오차와 변하지 않는 오차가 있다.

 

앞의 체중계 예에서 알 수없는 원인에 의해 측정값이 매번 다르게 표시되는 것이 우연오차(random error)

 

한편 옷의 무게와 같이 값이 변하지 않는 일정한 오차를 편향(bias) 또는 계통오차(systematic error)라고 한다.

 

오차 = 우연오차 + 편향

 

오차의 분해

 

4. 오차의 패턴

 

1) 편향과 우연오차가 양쪽 모두 작은 경우

 

측정할때마다 참값에 가까운 신뢰할 수 있는 값이 계측되는 바람직한 상황

 

 

 

 

2) 편향은 작고 우연오차가 큼

 

측정할때마다 값의 변동이 커서 계측으로 얻은 값을 신뢰할 수 없다.

 

하지만, 측정을 여러번 반복하면 신뢰성 있는 값을 얻을 수 있게 된다.

 

 

 

3) 편향만 큼

 

우연오차에 의한 측정값의 변동은 작지만, 측정된 값이 참값과는 동떨어져있다.

 

 

***여러번의 측정으로 안정적으로 동일한 값을 얻을 수 있다고 해서, 반드시 그 값을 믿어서는 안된다는 의미

 

계측을 반복해도 참값에 근접할 수 없다.

 

체중계에 무거운 옷을 입고 올라가는 경우를 생각해보면 이해하기 쉽다.

 

체중의 참값을 알고 싶다면, 그 옷을 벗고 측정하거나 옷의 무게를 측정한 결과에서 빼야한다.

 

이런 편향을 제거하기 위해서는...

 

1) 편향의 원인을 조사

2) 편향의 영향을 제거

 

일반적으로 편향의 원인이 무엇인지 또는 결과에 편향이 포함되어 있는지조차 모르는 경우가 자주 있다.

 

예를 들어, 체중계가 고장나서 체중의 5%를 더 늘려서 표시하는 상태라도 그것을 알아차리기는 어려울 것이다.

 

하지만 문제를 파악할 수 있다면, 원리적으로는 편향을 완전하게 제거할 수 있다.

 

체중계의 경우, 무게를 알고 있는 추를 측정해서 참고용으로 기록하고, 옷을 벗고 측정한 체중 값을 이로 보정하면 편향을 제거할 수 있게 된다.

 

 

4) 우연오차와 편향이 모두 큼

 

당연히 값의 차이가 어디서 생기는지를 파악하기 어렵다.

 

아무 계획 없이 수집한 데이터나 한정된 데이터밖에 사용할 수 없는 경우에 이런 상황이 발생

 

 

 

 

TAGS.

Comments