확률분포&연속형분포의 이산화&조건부분포&기댓값으로 구하는 통계량

1. 확률분포

 

$x \times  y$라는 데이터 공간에서 D는 데이터를 만들어내는 하나의 확률분포이다.

 

이로부터 얻어낸 데이터는 하나의 확률변수로 $(x,y) \sim D$이다.

 

확률분포에 따라 데이터의 이산형, 연속형이 결정된다. 데이터 상태가 실수이냐 정수이냐랑은 크게 무관하다.

 

확률분포는 이론적으로 존재하며 단순히 데이터만 보고는 무슨 확률분포를 따르는지는 알 수 없다.

 

--------------------------------------

확률질량함수는 이산형확률변수의 확률함수로 그 값 자체가 확률이다.

 

확률변수가 공간 A에서 가질 수 있는 모든 경우의 수를 고려한 확률의 합으로 구해진다.

-------------------------------------

 

확률밀도함수는 연속형확률변수의 확률함수지만 그 자체로 확률이 아니다.

 

이것은 확률변수의 밀도 위에서의 적분으로 정의된다.

 

------------------------------------

 

이산형과 연속형의 합으로 이루어진 혼합형도 존재함

 

확률질량함수와 확률밀도함수

 

2. 연속형 분포의 이산화

 

연속형 분포는 구간을 적절하게 나누면 이산화 시킬 수 있다.

 

 

데이터 공간을 구간화시켜서 각 구간에 속한 점의 수를 센다

 

위와 같이 X=x에 대해 y의 총합을 구해 주변확률분포를 구할 수 있다

 

 

Y의 주변분포는 X에 대해 합을 구하면 된다

 

반대로 Y=y에 대해 X의 총합을 구해 주변확률 분포를 구할 수 있다.

 

 

3. 기댓값을 이용한 통계량

 

기댓값은 확률변수를 대표하는 통계량

 

기댓값을 이용해 여러가지 통계량을 계산할 수 있다.

 

 

기댓값이 1차 적률, 분산이 2차 적률, 왜도는 3차 표준화적률, 첨도는 4차 표준화적률

 

 

4. 조건부분포

 

P(Y|X)는 고정된 입력값 X=x가  class Y=y에 속할 확률을 구해주는 조건부확률로 분류문제의 관심사

 

딥러닝의 다층신경망은 입력값을 선형모형에 통과시켜 얻은 선형출력값에

 

softmax 같은 비선형 활성화함수를 씌워 데이터에서 추출된 패턴을 기반으로 class y에 속할 확률을 구함

 

회귀문제는 입력값 X=x가 주어질 때 Y가 어느 정도 기대되는지 조건부 기댓값 E(Y|X)로 Y를 예측

 

조건부기댓값은 예측오차를 최소화시키는 선형모형 f(x)를 이용하여 구한다

 

 

TAGS.

Comments