20장 유의확률 p-값에 대하여

1. 여성이 82년 연속 더 많이 태어난다면

 

남성과 여성의 출생 성비는 정확히 1:1이 아니라 대략 1.05:1로 알려져 있다.

 

여자아이 100명이 태어날 때 남자아이 105명이 태어난다는 뜻이다.

 

이 사실을 처음 발긴 영국의 의사이자 과학자인 존 아버스넛은 1629년부터 1710년까지 82년 동안 영국 런던의 모든 출생 기록을 조사했는데,

 

해마다 태어난 여아가 남아보다 많다는 사실을 발견했다.

 

이것은 우연일까?

 

만약 출생 성비가 1:1이었다면 태어난 여아가 남아보다 우연히 많을 확률은 1/2일 것이다.

 

그리고 82년 동안 매해 여아가 더 많이 태어나는 사건은 매우 드문 일이다.

 

그러므로 출생 성비가 1:1일 수는 없다.

 

2의 82제곱은 4835703000000000000000000이다. 

 

그래서 여성이 82년 동안 매해 더 많이 태어날 확률은 0에 가깝다.

 

 

2. 유의확률

 

존 아버스넛의 논리는 200년 후 피셔와 그의 동료들에 의해 정립된 통계적 가설검정의 논리와 놀랍도록 닮았다.

 

두 가설을 비교한다.

 

귀무가설: 출생 성비는 1:1이다.

 

대립가설: 출생 성비는 1:1이 아니다.

 

두 가설 중 귀무가설을 기준으로 관측한 현상이 얼마나 일어나기 어려운지 확률로 표현할 수 있다.

 

관측된 현상이 곧 데이터이다.

 

통계학에서는 이 확률을 유의확률 또는 p-값이라고 부른다.

 

더 정확하게 표현하자면 유의확률은 귀무가설 아래에서 주어진 데이터와 같거나 더 극단적인 사건이 일어날 확률이다.

 

유의확률을 '귀무가설이 사실일 확률'로 해석하는 것은 조건과 결과를 뒤바꿔 확률을 해석하는 오류이다.

 

통계학이 어려운 이유중 하나는 이처럼 조건과 결과를 뒤바꿔 해석하는 오류의 여지가 너무 많기 때문이다.

 

아버스넛의 경우 p-값은 거의 0과 마찬가지로 매우 작았다.

 

p-값이 0에 가까울수록 귀무가설과 데이터는 양립하기 어렵다.

 

p-값이 작으면 작을수록 그 모순의 정도가 크기 때문에 p-값이 작을 때 귀무가설을 '기각'한다.

 

그렇다면 얼마나 작아야 작다고 보는 것일까?

 

3. 유의수준의 함정

 

어떤 기준이 필요하다.

 

이 기준을 유의수준이라고 부른다.

 

예를 들어 유의수준이 5%라면 p-값이 이보다 작을 때 귀무가설을 기각하는 식이다.

 

유의수준을 바꾸면 가설검정의 결과가 바뀐다.

 

예를 들어 어떤 가설검정에서 p-값이 0.02였다고 하자.

 

5%보다 작은 매우 작은 값이며 귀무가설이 사실이 아니라는 증거이다.

 

그런데 유의수준을 1%로 정한다면, p-값이 유의수준보다 더 크기 때문에 귀무가설이 틀렸다고 말할 증거가 부족하다.

 

객관적이어야 할 과학의 결론이 유의수준을 어떻게 정하느냐에 따라 바뀐다.

 

유의수준을 마음대로 바꾸는 것은 운동경기에서 심판을 매수하는 것과 마찬가지이다.

 

객관적인 기준이 필요한 과학자들은 한동안 유의수준 5%를 애용했다.

 

20세기 초 실험과학자들의 참고서였던 피셔의 <연구자를 위한 과학적 방법론>에서든 유의수준의 예시가 0.05였기 때문이다.

 

왜 5%인가? 5%에는 아무런 근거가 없다. 통계적 가설검정의 창시자였던 피셔가 사용한 숫자였을 뿐이다.

 

유의수준 5%의 가설검정이 귀무가설을 잘못 기각하는 오류를 범할 확률은 5%, 즉 20번 중 1번이다.

 

새로운 과학적 발견에 목말랐던 100년 전 과학자들에게는 5%의 오류는 충분히 감내할 수준이었을 것이다.

 

100년 후인 지금은 데이터가 넘쳐난다.

 

과학자, 공학자, 농학자 수도 그들이 행하는 실험과 가설검정 개수도 비교할 수 없을 만큼 많아졌다.

 

한 해에 20번의 과학 실험과 가설검정을 유의수준 5%에서 한다면 평균 1번의 오류가 일어난다.

 

그러나 2000만번의 통계적 가설검정을 한다면 발견된 사실 중 100만 건이 오류이다.

 

전통적인 유의수준 5%는 그 효용을 잃고 있다.

 

4. p값의 진정한 가치

 

실험과학계에서는 기계적인 가설검정을 지양해야 한다는 바람이 불고 있다.

 

똑같이 설계된 실험을 두 연구실에서 실행해 두 가지 데이터를 얻었다.

 

A연구실의 가설검정 과정에서는 0.049라는 p-값이 나왔다.

 

유의수준 5%보다 작으니 귀무가설은 기각하고 대립가설을 채택한다. 새로운 발견이다.

 

그러나 B연구실의 데이터에서는 0.051이라는 p-값이 나왔다.

 

5%보다 크니 새로운 발견에 실패한 것일까

 

그러나 두 p-값은 거의 비슷하므로, '거의 같은' 실험 결과이다.

 

하지만 유의수준 5%의 기계적인 가설검정에서는 성공과 실패라는 상반된 결과로 바뀐다.

 

p-값이 제시하는 매우 정확한 정보를 일부만 사용했기 때문이다.

 

p < 0.05를 넘어 p값이 담고 있는 풍부한 정보를 그대로 이용해야 한다.

 

가설검정의 쓸모는 여전하다.

 

실험과학계에서는 요즈음 둘 중 하나의 가설을 선택하는 가설검정 결과 대신 p값 그 자체를 이용하거나,

 

각 가설이 얼마나 가능한지 측정하는 등 다양한 방법을 이용한다.

 

성공과 실패라는 흑백논리를 넘어 실험 결과에 내재된 불확실성 그 자체를 보고한다.

 

가설검정의 결과는 흑과 백이 아니라 이제 농도가 다른 여러 회색으로 다채로워지고 있다.

 

 

TAGS.

Comments