경험분포함수(empirical distribution function)

우리가 가지고 있는 데이터 x1,x2,...,xn는 어떠한 이상적인 확률분포를 따르는 확률변수 X의 관측값으로 생각할 수 있습니다.

 

그러나 이 확률변수 X100% 정확한 확률분포를 절대로 구할 수 없으며 그러한 확률분포를 추정하는 방법밖에 없습니다.

 

확률변수의 확률분포와 누적확률분포함수가 일대일대응한다는 것을 말씀드렸습니다.

 

만약 데이터 x1,x2,...,xn를 가지고 확률변수 X의 누적확률분포함수를 추정할 수 있다면 데이터 x1,x2,...,xn의 확률분포를 어느정도 알 수 있을 것입니다.

 

확률변수 X의 누적확률분포함수를 추정하는 가장 쉬운 방법으로 경험적 분포 함수인 empirical distribution function이 있습니다.

 

각 관측치 xi에 대하여 가중치 1n을 부여하여 인위적으로 만든 분포 P(X=xi)=1n을 경험분포(empirical distribution)라고 부릅니다.

 

이 경험분포의 누적확률분포함수인 F(xi)=P(Xxi)=k=1iP(X=xk)=in을 주어진 데이터 xi가 따른다고 생각하는 확률변수 X의 누적확률분포함수의 추정량으로 사용합니다.

 

(편의상 x1x2....xn이라고 가정했습니다.)

 

당연히 추정하는 방법은 여러 가지 방법이 있을 수 있겠지만 편의상 가장 쉬운 방법 중 하나를 설명한 것입니다.

728x90