경험분포함수(empirical distribution function)

우리가 가지고 있는 데이터 $x _{1},x _{2},...,x _{n}$는 어떠한 이상적인 확률분포를 따르는 확률변수 $X$의 관측값으로 생각할 수 있습니다.

 

그러나 이 확률변수 $X$100% 정확한 확률분포를 절대로 구할 수 없으며 그러한 확률분포를 추정하는 방법밖에 없습니다.

 

확률변수의 확률분포와 누적확률분포함수가 일대일대응한다는 것을 말씀드렸습니다.

 

만약 데이터 $x _{1},x _{2},...,x _{n}$를 가지고 확률변수 $X$의 누적확률분포함수를 추정할 수 있다면 데이터 $x _{1},x _{2},...,x _{n}$의 확률분포를 어느정도 알 수 있을 것입니다.

 

확률변수 $X$의 누적확률분포함수를 추정하는 가장 쉬운 방법으로 경험적 분포 함수인 empirical distribution function이 있습니다.

 

각 관측치 $x _{i}$에 대하여 가중치 $\frac{1}{n}$을 부여하여 인위적으로 만든 분포 $$P(X=x _{i} )= \frac{1}{n}$$을 경험분포(empirical distribution)라고 부릅니다.

 

이 경험분포의 누적확률분포함수인 $$F(x _{i} )=P(X \leq x _{i} )= \sum _{k=1} ^{i} P(X=x _{k} )= \frac{i}{n}$$을 주어진 데이터 $x _{i}$가 따른다고 생각하는 확률변수 $X$의 누적확률분포함수의 추정량으로 사용합니다.

 

(편의상 $x _{1} \leq x _{2}  \leq .... \leq x _{n}$이라고 가정했습니다.)

 

당연히 추정하는 방법은 여러 가지 방법이 있을 수 있겠지만 편의상 가장 쉬운 방법 중 하나를 설명한 것입니다.

TAGS.

Comments