Loading...

추정량의 오차는 왜 추정량의 표준편차일까?

참값 $S$의 추정량 $\hat{S}$이 아주 좋은 성질로 $E(\hat{S})=S$을 만족한다면 불편추정량(unbiased estimator)이라고 한다. 참값과 추정값 사이에는 분명한 차이가 있는데 이것을 오차(error)라고 한다. $$e={\hat{S}}-S$$ 많은 경우에 참값은 알 수 없는 값이니까 $e={\hat{S}}-S$를 구하는 것은 불가능하다. 사실 $\hat{S}$이 표본추출에 의해 랜덤하니까 $e={\hat{S}}-S$도 랜덤한 확률변수이므로 어느 정도 나오리라는 기댓값 정도는 구할 수 있다 오차 제곱의 기댓값 $E((\hat{(S} -S) ^{2} )$을 Mean square for error, 그 유명한 MSE이다. 이것을 최소로 하는 추정량 $\hat{S}$을 선택하는 것이 ..

2022. 5. 23. 04:16

피어슨 상관계수, 스피어만 상관계수, 켄달의 타우 완벽비교

1. 상관계수(correlation coefficient) 두 변수의 통계적 관계를 나타내는 상관관계의 정도를 수치로 나타낸 값 -1부터 1까지의 값을 가지며, 0인 경우는 상관관계가 없다고 말한다. 세가지 성질을 가지는 것이 좋다. 1)두 변수의 값이 완전한 부합이면 +1, 완전한 비부합이면 -1 2)두 변수가 서로 독립이면 0 3)두 변수에 대해 크기의 순서가 보존되는 변환을 수행해도 상관계수의 값은 변하지 않는다 수치를 확인하기 전에 산점도(scatter plot)를 먼저 그리고 수치적으로 파악하는 것이 기본 2. 피어슨 상관계수(pearson) 두 변수 X,Y의 선형적 관계(linear relationship)의 측도 선형적 관계가 강하다는 것은 선형모형에 의해 두 변수의 관계를 잘 모델링할 수 ..

2022. 4. 7. 02:27

재현율(recall)에 대해 정확히 알기

1. 문제제기 class간 불균형 데이터를 classification할 때 모델이 데이터가 많은 class(다수 class)에 분류하려는 경향이 있다는 것은 잘 알려진 사실 왜냐하면 class 1과 0이 97:3으로 나뉘어져있다고 해보자 모델이 전체 데이터를 예측할 때 전부 class 1로 예측하면 무려 97% 정확도를 얻는다 그러면 여기서 문제 데이터가 적은 소수 클래스의 민감도가 낮아지는가?? 2. 생각 소수 클래스의 민감도라는 것이 도대체 무슨 말이지? 내가 아는건 이런 혼동행렬에서 민감도는 실제 긍정인 것중에 모델이 긍정이라고 예측한 것의 비율 TP/(TP+FN) 특이도는 실제 부정인 것중에서 모델이 부정이라고 예측한 것의 비율 TN/(FP+TN) 정밀도는 모델이 긍정이라고 예측한 것중에서 실제 ..

2022. 2. 21. 20:42

표집분포(sampling distribution)와 표본분포(sample distribution)

1. 모집단이란?(population) 연구자가 관심있어하는 주제를 모두 나타낼 수 있는 개인이나 어떤 값의 전체 모임 대한민국 사람들의 평균키를 조사하고 싶을 때? 전체 대한민국 사람들이 모두 대상이 되는데 이것이 population distribution ----------------------------------------------------------------------------------------------------------- 모집단은 생각보다 미묘한 개념일 수 있다 어떤 표본을 추출할 수 있는 모집단에는 3가지 유형이 있다 1) 말 그대로의 모집단: 한 예로 여론조사에서 무작위로 한 명을 뽑는, 확인 가능한 집단이 있다. 관측 가능한 개인들로 구성된 집단도 여기에 해당한다. 실제로..

조건부독립의 성질

만약 $w_{1},w_{2},...w_{n}$이 $c$가 주어질 때 서로 조건부독립이라면 \[P(w _{1},w _{2},....,w _{n}|c)= \prod _{i=1} ^{n} P(w _{i} |c)\]이다? $n=2$라고 한다면 \[P(w _{1}|w _{2} ,c)=P(w _{1} |c)\]이므로 \[\frac{P(w _{1} ,w _{2} ,c)}{P(w _{2} ,c)}=\frac{P(w _{1} ,c)}{P(c)}\] 식을 정리하면 \[\frac{P(w _{1} ,w _{2} ,c)}{P(c)}= \frac{P(w _{1} ,c)}{P(c)}\frac{P(w _{2} ,c)}{P(c)}\] 그러므로 \[P(w _{1},w _{2}|c)=P(w _{1} |c)P(w _{2} |c)\] $n=..

2022. 1. 30. 02:59

회귀분석에서 회귀계수는 유의하지만 절편이 유의하지 않다면..?

1. 문제 회귀분석을 수행할 때 회귀계수는 유의하더라도 절편이 유의하지 않다면 어떻게 해야할까? intercept가 유의하지 않고 회귀계수가 유의하니까 추정된 회귀식을 y = 1.5295x라고 적어야할까? 아니면 y = 1.5295x + 6.4095라고 적어도 괜찮은 걸까? 정답은 후자다. 절편을 아무 근거없이 함부로 제거하면 안된다 2. 절편은 어떤 의미를 가지는가? y = a+bx라는 회귀식에서 절편 a는 어떤 의미를 가질까? 절편이라는 것은 설명변수의 위치에 의존하게 된다. '설명변수 x=0일 때 반응변수 y의 값이 상수 a와 같다' 설명변수 x가 0일때라는 점에서 절편이 갖는 의미가 생각보다 중요하지 않다 설명변수 x가 0일때 의미없다면 절편도 아무런 의미를 갖지 않게 된다. 예를 들어 생각해보면..