Loading [MathJax]/jax/output/CommonHTML/jax.js
 

확률분포&연속형분포의 이산화&조건부분포&기댓값으로 구하는 통계량

1. 확률분포

 

x×y라는 데이터 공간에서 D는 데이터를 만들어내는 하나의 확률분포이다.

 

이로부터 얻어낸 데이터는 하나의 확률변수로 (x,y)D이다.

 

확률분포에 따라 데이터의 이산형, 연속형이 결정된다. 데이터 상태가 실수이냐 정수이냐랑은 크게 무관하다.

 

확률분포는 이론적으로 존재하며 단순히 데이터만 보고는 무슨 확률분포를 따르는지는 알 수 없다.

 

--------------------------------------

확률질량함수는 이산형확률변수의 확률함수로 그 값 자체가 확률이다.

 

확률변수가 공간 A에서 가질 수 있는 모든 경우의 수를 고려한 확률의 합으로 구해진다.

-------------------------------------

 

확률밀도함수는 연속형확률변수의 확률함수지만 그 자체로 확률이 아니다.

 

이것은 확률변수의 밀도 위에서의 적분으로 정의된다.

 

------------------------------------

 

이산형과 연속형의 합으로 이루어진 혼합형도 존재함

 

etc-image-0
확률질량함수와 확률밀도함수

 

2. 연속형 분포의 이산화

 

연속형 분포는 구간을 적절하게 나누면 이산화 시킬 수 있다.

 

etc-image-1

 

데이터 공간을 구간화시켜서 각 구간에 속한 점의 수를 센다

 

위와 같이 X=x에 대해 y의 총합을 구해 주변확률분포를 구할 수 있다

 

etc-image-2

 

Y의 주변분포는 X에 대해 합을 구하면 된다

 

반대로 Y=y에 대해 X의 총합을 구해 주변확률 분포를 구할 수 있다.

 

etc-image-3

 

3. 기댓값을 이용한 통계량

 

기댓값은 확률변수를 대표하는 통계량

 

기댓값을 이용해 여러가지 통계량을 계산할 수 있다.

 

etc-image-4

 

기댓값이 1차 적률, 분산이 2차 적률, 왜도는 3차 표준화적률, 첨도는 4차 표준화적률

 

 

4. 조건부분포

 

P(Y|X)는 고정된 입력값 X=x가  class Y=y에 속할 확률을 구해주는 조건부확률로 분류문제의 관심사

 

딥러닝의 다층신경망은 입력값을 선형모형에 통과시켜 얻은 선형출력값에

 

softmax 같은 비선형 활성화함수를 씌워 데이터에서 추출된 패턴을 기반으로 class y에 속할 확률을 구함

 

회귀문제는 입력값 X=x가 주어질 때 Y가 어느 정도 기대되는지 조건부 기댓값 E(Y|X)로 Y를 예측

 

조건부기댓값은 예측오차를 최소화시키는 선형모형 f(x)를 이용하여 구한다

 

etc-image-5

 

728x90