Loading...
2024. 1. 1. 01:25

19장 잘못된 선택에 대하여

1. 통계적 가설검정의 딜레마 통계적 가설검정은 배신해야 하는 운명에 놓인 숙제 같다. 통계적 가설검정이 품은 문제를 간단히 표현하면 두 정규분포 중 하나를 고르는 문제와 같다. 확실하지 않은 상황에서 둘 중 하나를 골라야 하는 딜레마라고 할까 정규분포는 평균과 표준편차만으로 그 분포를 알 수 있다. 확률 이론에 따르면 정규분포에서 무작위로 뽑힌 관측값은 평균에서 표준편차의 2배 이내에 있다고 95% 확신할 수 있다. 평균이 0이고 표준편차가 1이라면 -2 ~+2 사이에서 관측될 것이다. 만약 평균이 2, 표준편차가 1이라면 0과 4 사이에 이 관측값이 있을 것이다. 물론 95% 확률로 그렇다는 말이다. 가설검정의 문제는 다음과 같다. 어떤 값을 관측했다. 이 값이 0.5라고 치자. 이 값은 어떤 분포에..

2022. 5. 23. 04:16

피어슨 상관계수, 스피어만 상관계수, 켄달의 타우 완벽비교

1. 상관계수(correlation coefficient) 두 변수의 통계적 관계를 나타내는 상관관계의 정도를 수치로 나타낸 값 -1부터 1까지의 값을 가지며, 0인 경우는 상관관계가 없다고 말한다. 세가지 성질을 가지는 것이 좋다. 1)두 변수의 값이 완전한 부합이면 +1, 완전한 비부합이면 -1 2)두 변수가 서로 독립이면 0 3)두 변수에 대해 크기의 순서가 보존되는 변환을 수행해도 상관계수의 값은 변하지 않는다 수치를 확인하기 전에 산점도(scatter plot)를 먼저 그리고 수치적으로 파악하는 것이 기본 2. 피어슨 상관계수(pearson) 두 변수 X,Y의 선형적 관계(linear relationship)의 측도 선형적 관계가 강하다는 것은 선형모형에 의해 두 변수의 관계를 잘 모델링할 수 ..