우리가 가지고 있는 데이터 x1,x2,...,xn는 어떠한 이상적인 확률분포를 따르는 확률변수 X의 관측값으로 생각할 수 있습니다.
그러나 이 확률변수 X의 100% 정확한 확률분포를 절대로 구할 수 없으며 그러한 확률분포를 추정하는 방법밖에 없습니다.
확률변수의 확률분포와 누적확률분포함수가 일대일대응한다는 것을 말씀드렸습니다.
만약 데이터 x1,x2,...,xn를 가지고 확률변수 X의 누적확률분포함수를 추정할 수 있다면 데이터 x1,x2,...,xn의 확률분포를 어느정도 알 수 있을 것입니다.
확률변수 X의 누적확률분포함수를 추정하는 가장 쉬운 방법으로 경험적 분포 함수인 empirical distribution function이 있습니다.
각 관측치 xi에 대하여 가중치 1n을 부여하여 인위적으로 만든 분포 P(X=xi)=1n을 경험분포(empirical distribution)라고 부릅니다.
이 경험분포의 누적확률분포함수인 F(xi)=P(X≤xi)=i∑k=1P(X=xk)=in을 주어진 데이터 xi가 따른다고 생각하는 확률변수 X의 누적확률분포함수의 추정량으로 사용합니다.
(편의상 x1≤x2≤....≤xn이라고 가정했습니다.)
당연히 추정하는 방법은 여러 가지 방법이 있을 수 있겠지만 편의상 가장 쉬운 방법 중 하나를 설명한 것입니다.
728x90
'다시보는 통계학' 카테고리의 다른 글
무의식적인 통계학자의 법칙(Law Of The Unconscious Statistician) (0) | 2021.12.30 |
---|---|
몬테카를로(Monte-Carlo) 시뮬레이션에 대한 이론적인 설명 (0) | 2021.12.21 |
누적분포함수와 분위수(quantile)의 관계 (0) | 2021.12.08 |
분포함수에 관한 중요한 정리(theorem) (0) | 2021.12.07 |
누적확률분포함수(cumulative probability distribution)에 대하여 (0) | 2021.12.06 |