23장 편견도 데이터가 많으면 바뀐다

다시 동전 던지기 게임이 시작됐다.

 

동전을 10번 던져 그 결과를 보고 시연자가 앞면이 절반 나올 확률로 던지는 공평한 사람인지, 68% 확률로 던지는 캐나다 의사인지 맞춰보자.

 

이번에는 동전을 10번 던져 앞면이 무려 9번이 나왔다.

 

통계학자의 계산에 따르면 10번 던져 앞면이 9번 나왔을때, 시연자가 캐나다 의사일 확률은 91%, 공평한 사람일 확률은 9%라고 한다.

 

캐나다 의사일 확률이 높으므로 시연자는 캐나다 의사이다.

 

베이즈 추론의 결과이다.

 

이 확률값 91%는 어떻게 계산할까?

 

놀랍게도 가장 객관적일 것 같은 이 확률은 사실은 매우 주관적인 값이다.

 

다음은 게임을 시작하기 전 여러분이 할 법한 생각이다.

 

1) 시연자가 공평한 사람인지 의사인지 알 수 없으므로 캐나다 의사일 확률은 50%

 

2) 캐나다 의사를 섭외했을 리가 없으므로 캐나다 의사일 확률은 5%

 

이 두 생각은 데이터, 즉 동전 던지기 결과를 보기도 전에 정해진 매우 주관적인 견해이다.

 

숫자로 표현된 이 선입견을 사전확률이라고 부른다.

 

확률로 표현된 이 견해, 시연자가 캐나다 의사일 것이라는 믿음의 정도는 관측한 동전 던지기 결과에 의해 업데이트 된다.

 

업데이트된 확률값은 사후확률이라고 부른다.

 

사전확률은 사건(동전을 10번 던져 앞면이 9번 나온 사건)이 벌어지기 전의 확률, 사후확률은 사건이 벌어진 후의 확률

 

앞서 이야기한 베이즈 업데이트의 과정이다.

 

캐나다 의사의 사전확률이 50%였던 경우에 사후확률은 91%로 업데이트 된다.

 

만약 시연자에 대한 여러분의 선입견이 편향되었다면, 즉 캐나다 의사의 사전확률이 5%인 경우에...

 

10번 중 9번이 앞면이 나올 정도로 증거가 명확해도 사후확률은 35%에 그친다.

 

앞면이 6번 나왔을 때 캐나다 의사일 확률 'P(캐나다 의사|데이터)'는 베이즈 법칙에 의해 다음과 같이 계산한다.

 

$$\frac{P(데이터|의사)P(의사)}{P(데이터|의사)P(의사) + P(데이터|공평한 사람)P(공평한 사람)}$$

 

편견이 강하면 강할수록 데이터가 업데이트하는 믿음의 정도가 작다.

 

 

 

이처럼 편견에 휘둘리는 매우 주관적인 분석을 믿을 수 있을까?

 

통계학자들은 편견에 매몰되지 않기 위해 두가지 장치를 마련했다.

 

첫번째는 사전확률을 객관적으로 정하는 것이다.

 

물론 어떤 사전확률이 객관적인지 결정하는 데에도 주관이 필요하다.

 

동전 던지기 게임같이 간단한 경우에는 캐나다 의사일 사전확률을 50%로 정하는 것이 객관적이라는 주장에 대부분 동의할 것이다.

 

두번째 장치는 데이터의 양이다.

 

편견이 가득 찬 사전확률 5%라도 데이터의 양이 많아지면 결국에는 데이터가 이기기 마련이다.

 

만약 동전던지기를 10번이 아니라 100번해서 70번 앞면이 나왔다면, 캐나다 의사일 확률은 5%에서 99%로 업데이트된다.

 

 

 

TAGS.

Comments