경험분포함수(empirical distribution function)
우리가 가지고 있는 데이터 $x _{1},x _{2},...,x _{n}$는 어떠한 이상적인 확률분포를 따르는 확률변수 $X$의 관측값으로 생각할 수 있습니다.
그러나 이 확률변수 $X$의 100% 정확한 확률분포를 절대로 구할 수 없으며 그러한 확률분포를 추정하는 방법밖에 없습니다.
확률변수의 확률분포와 누적확률분포함수가 일대일대응한다는 것을 말씀드렸습니다.
만약 데이터 $x _{1},x _{2},...,x _{n}$를 가지고 확률변수 $X$의 누적확률분포함수를 추정할 수 있다면 데이터 $x _{1},x _{2},...,x _{n}$의 확률분포를 어느정도 알 수 있을 것입니다.
확률변수 $X$의 누적확률분포함수를 추정하는 가장 쉬운 방법으로 경험적 분포 함수인 empirical distribution function이 있습니다.
각 관측치 $x _{i}$에 대하여 가중치 $\frac{1}{n}$을 부여하여 인위적으로 만든 분포 $$P(X=x _{i} )= \frac{1}{n}$$을 경험분포(empirical distribution)라고 부릅니다.
이 경험분포의 누적확률분포함수인 $$F(x _{i} )=P(X \leq x _{i} )= \sum _{k=1} ^{i} P(X=x _{k} )= \frac{i}{n}$$을 주어진 데이터 $x _{i}$가 따른다고 생각하는 확률변수 $X$의 누적확률분포함수의 추정량으로 사용합니다.
(편의상 $x _{1} \leq x _{2} \leq .... \leq x _{n}$이라고 가정했습니다.)
당연히 추정하는 방법은 여러 가지 방법이 있을 수 있겠지만 편의상 가장 쉬운 방법 중 하나를 설명한 것입니다.
'다시보는 통계학' 카테고리의 다른 글
무의식적인 통계학자의 법칙(Law Of The Unconscious Statistician) (0) | 2021.12.30 |
---|---|
몬테카를로(Monte-Carlo) 시뮬레이션에 대한 이론적인 설명 (0) | 2021.12.21 |
누적분포함수와 분위수(quantile)의 관계 (0) | 2021.12.08 |
분포함수에 관한 중요한 정리(theorem) (0) | 2021.12.07 |
누적확률분포함수(cumulative probability distribution)에 대하여 (0) | 2021.12.06 |