참값 SS의 추정량 ˆS^S이 아주 좋은 성질로 E(ˆS)=SE(^S)=S을 만족한다면 불편추정량(unbiased estimator)이라고 한다.
참값과 추정값 사이에는 분명한 차이가 있는데 이것을 오차(error)라고 한다.
e=ˆS−Se=^S−S
많은 경우에 참값은 알 수 없는 값이니까 e=ˆS−Se=^S−S를 구하는 것은 불가능하다.
사실 ˆS^S이 표본추출에 의해 랜덤하니까 e=ˆS−Se=^S−S도 랜덤한 확률변수이므로
어느 정도 나오리라는 기댓값 정도는 구할 수 있다
오차 제곱의 기댓값 E((^(S−S)2)E((^(S−S)2)을 Mean square for error, 그 유명한 MSE이다.
이것을 최소로 하는 추정량 ˆS^S을 선택하는 것이 좋은 추정이다.
그런데 ˆS^S이 불편추정량(unbiased estimator) E(ˆS)=SE(^S)=S이므로
E((^(S−S)2)E((^(S−S)2)에 대입하면 E((^(S−E(ˆS))2)E((^(S−E(^S))2)인데 ˆS^S의 편차 제곱의 기댓값이므로 분산 Var(ˆS)Var(^S)와 같다
이런 의미에서 불편추정량의 오차 E((^(S−E(ˆS))2)E((^(S−E(^S))2)로
ˆS^S의 표준편차를 구하면 된다
그래서 추정량의 표준편차는 표준오차라고 부른다(standard error)
728x90
'다시보는 통계학' 카테고리의 다른 글
Wilcoxon rank sum test(Mann–Whitney U test)는 등분산성을 가정하고 있다 (0) | 2022.06.11 |
---|---|
표본평균의 분산은 σ2/nσ2/n이 아니다 (0) | 2022.06.09 |
피어슨 상관계수, 스피어만 상관계수, 켄달의 타우 완벽비교 (0) | 2022.05.23 |
재현율(recall)에 대해 정확히 알기 (0) | 2022.04.07 |
표집분포(sampling distribution)와 표본분포(sample distribution) (0) | 2022.02.21 |