Loading...
2024. 1. 3. 23:19

통계적 모델링과 최대가능도추정법(Maximum likelihood estimation) 간단하게

1. 통계적 모델링 적절한 가정 위에서 확률분포를 추정하는 것 유한한 개수의 데이터만 보고 정확한 모집단의 분포를 아는 것은 불가능하므로 근사적으로 추정함 예측모형의 목표는 분포를 정확하게 맞추는것보다 데이터와 추정방법의 불확실성을 고려하여 위험을 최소화하는 것이다. 데이터가 특정 확률분포를 따른다고 선험적으로 가정하고 분포를 결정하는 방법론은 모수적 방법론 특정 확률분포를 가정하지 않고 데이터에 따라 모델의 구조 및 모수의 개수가 유연하게 바뀌면 비모수적 방법론 비모수적 방법론은 모수를 안쓴다는 것이 아니라 특별한 확률분포를 가정하지 않는 것이다. 기계학습의 대부분은 비모수적 방법론이다. 확률분포는 어느정도 가이드라인이 있다고는 하는데 큰 의미는 없다.. 데이터를 생성한 원리나 전체적인 형태 등을 전부..

추정량의 오차는 왜 추정량의 표준편차일까?

참값 $S$의 추정량 $\hat{S}$이 아주 좋은 성질로 $E(\hat{S})=S$을 만족한다면 불편추정량(unbiased estimator)이라고 한다. 참값과 추정값 사이에는 분명한 차이가 있는데 이것을 오차(error)라고 한다. $$e={\hat{S}}-S$$ 많은 경우에 참값은 알 수 없는 값이니까 $e={\hat{S}}-S$를 구하는 것은 불가능하다. 사실 $\hat{S}$이 표본추출에 의해 랜덤하니까 $e={\hat{S}}-S$도 랜덤한 확률변수이므로 어느 정도 나오리라는 기댓값 정도는 구할 수 있다 오차 제곱의 기댓값 $E((\hat{(S} -S) ^{2} )$을 Mean square for error, 그 유명한 MSE이다. 이것을 최소로 하는 추정량 $\hat{S}$을 선택하는 것이 ..