p-value에 대한 오해

1. 문제 제기

 

빅데이터분석기사, ADsP를 공부하면서 p-value에 대한 정의가 이상한 것 같아서 이번 기회에 정리를 해볼려고 한다.

 

2. p-value에 대한 오해

 

2-1) p-value가 관측된 검정통계량이 귀무가설을 지지하는 방향으로 관찰될 확률?

 

2-2) p-value는 제1종오류를 일으킬 확률?

 

3. p-value의 정의

 

위키피디아에서 ‘In null hypothesis significance testing, the p-value is the probability of obtaining test results at least as extreme as the results actually observed, under the assumption that the null hypothesis is correct’

 

보통 p-value귀무가설이 맞다고 가정할 때 관찰된 검정통계량보다 더 극단적인 방향으로 관측될 확률을 의미한다.

 

T-test를 예로 들어보면 관찰된 검정통계량이 $t  _{0} >0$라고 한다면

 

right tail test$H  _{1}:\mu>\mu   _{0}$에서는 $p=P(T \geq t  _{0} |H  _{0} )$

 

left tail test인 $H  _{1} :\mu <\mu   _{0}$에서는 $p=P(T \leq t  _{0} |H  _{0} )$

 

two sided test$H  _{1} :\mu \neq \mu   _{0}$에서는

$$p=2min(P(T \geq t  _{0} |H  _{0} ),P(T \leq -t  _{0} |H  _{0} ))=P(\left | T \right | \geq  \left | t  _{0} \right | |H  _{0} )$$이다.

 

물론 분포가 대칭이면 $P(T \geq t  _{0} |H  _{0} )=P(T \leq -t  _{0} |H  _{0} )$이어서 $$p=2P(T \geq t  _{0} |H  _{0} )$$으로 쉽게 구한다.

 

p-value는 귀무가설이 참일 때 관찰된 검정통계량보다 대립가설을 지지하는 방향으로 극단적인 값이 관측될 확률을 의미한다.

 

그림1. p-value에 대한 정의 그림

 

p-value가 작을수록 귀무가설이 거짓일 강력한 증거가 발견되었다고 말한다.

 

반드시 귀무가설이 거짓이라는 것은 아니다.

 

p-value가 작다는 것은 귀무가설이 정말로 거짓이거나 귀무가설이 참이지만 정말로 우연히 극단적인 관측값이 발견되었다는 것이다. 하지만 후자일 가능성은 낮다는 것이다.

 

4. 1종 오류를 일으킬 확률과 유의수준

 

1종 오류란 귀무가설이 참인데 귀무가설을 기각할 확률이다.

 

$$type1   error=P(rejectH  _{0} |H  _{0} )$$

 

type1 error를 일으킬 확률을 보통 $\alpha$라고 표시한다.

 

$\alpha=0.05$의 유의수준보다 p-value가 작으면 귀무가설을 기각한다는 유명한 문장이다.

 

이 때문에 유의수준(significance level)과 제1종 오류를 일으킬 확률을 헷갈릴 수 있는데 문맥상 차이가 있다고 봐야한다

 

통계적 가설검정에서 제1종오류를 일으킬 확률의 최대 허용수준을 먼저 정하고 가설검정을 수행하는데 이것을 가설검정의 유의수준(significance level)이라고 한다. 보통 $\alpha=0.05$를 설정한다.

 

이 가설검정을 수행하면서 귀무가설이 참인데도 귀무가설을 기각하는 제 1종 오류를 일으킬 수 있는데 100번 수행하면 5번정도의 1종 오류는 허용하겠다는 의미이다.

 

개개의 가설검정 수행마다 1종 오류를 일으킬 확률 $\alpha$에 의해 1종 오류를 범할 것이다. 그래서 가설검정의 유의수준과 1종 오류를 일으킬 확률은 의미상 차이가 있다.

 

5. p-value1종 오류를 일으킬 확률인가?

 

데이터를 모아 가설검정을 수행하여 귀무가설을 기각할지 말지 결정한다. 이것이 1회의 가설검정이다.

 

1종오류를 일으킬 확률 $\alpha$는 가설검정을 충분히 많이 수행하면 $\alpha$의 비율로 귀무가설을 기각한다는 의미이다.

 

반면 p-value는 위에서 정의한 것처럼 conditional이면서 instance-specific이다.

 

1회의 가설검정을 수행할 때 데이터를 모아 검정통계량을 관측하는 순간 p-value가 결정이 된다.

 

가설검정을 여러번 수행하면 데이터를 모아 검정통계량을 관측할 때마다 여러개의 검정통계량 $t  _{0} ,t  _{1} ,...,t  _{n}$이 관측되므로 매 가설검정마다 p-value의 정의는 달라진다.

 

n번 가설검정을 수행하면 제1종오류를 일으킬 확률은 매 순간 $\alpha =P(rejectH  _{0} |H  _{0} )$으로 같지만 p-value는 매 순간 관측된 검정통계량 $t  _{0} ,t  _{1} ,...,t  _{n}$에 대하여

$$P(T \geq t  _{0} |H  _{0} ),P(T \geq t  _{1} |H  _{0} ),...,P(T \geq t  _{n} |H  _{0} )$$

으로 다르다.

 

 

이것 말고도 다르게 생각할 수 있다.

 

 

예를 들어 유의수준(significance level) $\alpha$에 대하여 $p-value \geq  \alpha $이면 귀무가설 $H  _{0}$를 기각하지 않으므로 제1종오류를 일으킬 확률은 0이다. 반면 $p-value \geq  \alpha $이므로 p-value0이 아니다.

 

반대로 귀무가설이 참이고 $p-value< \alpha $라고 가정하면 귀무가설을 반드시 기각하므로 이 때 제1종오류를 일으킬 확률은 1이다. 그러나 $p-value< \alpha $이므로 p-value1이 아니다.

 

6. 핵심요약

 

6-1) p-value는 귀무가설이 참일 때 관찰된 검정통계량보다 대립가설을 지지하는 방향으로 극단적인 값이 관측될 확률을 의미한다.

 

6-2) p-value관측된 검정통계량보다 극단적인 값이 관측될 확률이라는 정의에 입각하면, n번 가설검정을 수행하면 제1종오류를 일으킬 확률은 매 순간 $\alpha =P(rejectH  _{0} |H  _{0} )$으로 같지만 p-value는 매 순간 관측된 검정통계량 $t  _{0} ,t  _{1} ,...,t  _{n}$에 대하여 매 순간 $$P(T \geq t  _{0} |H  _{0} ),P(T \geq t  _{1} |H  _{0} ),...,P(T \geq t  _{n} |H  _{0} )$$으로 다르다

 

7.참조

 

https://en.wikipedia.org/wiki/P-value

 

https://stats.stackexchange.com/questions/129628/what-is-the-relationship-between-p-values-and-type-i-errors

TAGS.

Comments