Loading...
2021. 12. 6. 21:19

누적확률분포함수(cumulative probability distribution)에 대하여

확률변수 X의 누적확률분포함수(cumulative distribution function)라는 것은 모든 실수 x에 대하여 $$F(x)=P(X \leq x)$$으로 정의되는 함수를 말합니다. 누적확률분포함수는 모든 확률변수에 대해 정의할 수 있으며 $$F(x)=P(X \leq x)$$로 하나의 확률이니까 어떠한 실수 x를 넣더라도 0과 1사이의 값을 가집니다. 그리고 그 이름에서도 알 수 있듯이 확률을 누적해서 더한다는 의미를 가져서 증가함수(increasing function)입니다. 일반적으로 알고 있는 normal distribution이나 uniform distribution이나 binomial distribution 같은 여러 분포들은 유일한 누적확률분포함수를 갖습니다. 무슨 말이냐면 누적확률분..

2021. 11. 18. 21:30

확률(probability)과 가능도(likelihood)는 어떻게 다를까?

1. 통계학에서 말하는 확률이란? 다음과 같은 3가지 공리(axiom)를 만족하는 것을 공리적 확률(probability)이라고 한다. 확률이 가져야한다고 생각하는 가장 기본적인 3가지 성질로 증명없이 받아들인다. 1) 임의의 사건 $A \subset \Omega$에 대하여 $P(A) \geq 0$ 2) 가능한 전체 경우의 수를 포함하는 집합 $\Omega$에 대하여 $P(\Omega)=1$ 3) 배반사건열 $A _{1},A _{2},A _{3},...$에 대하여 $P( \bigcup A _{i} )= \sum _{i=1} ^{\infty } P(A _{i} )$ 쉽게 말해 결국 확률은 사건 $A$를 $0 \leq P(A) \leq 1$을 만족시키는 실수집합으로 대응시키는 함수이다. 2.확률밀도함수와 확..

2021. 10. 6. 19:45

p-value에 대한 오해

1. 문제 제기 빅데이터분석기사, ADsP를 공부하면서 p-value에 대한 정의가 이상한 것 같아서 이번 기회에 정리를 해볼려고 한다. 2. p-value에 대한 오해 2-1) p-value가 관측된 검정통계량이 귀무가설을 지지하는 방향으로 관찰될 확률? 2-2) p-value는 제1종오류를 일으킬 확률? 3. p-value의 정의 위키피디아에서 ‘In null hypothesis significance testing, the p-value is the probability of obtaining test results at least as extreme as the results actually observed, under the assumption that the null hypothesis is ..

2021. 10. 6. 07:05

머신러닝 모델에서의 bias와 variance에 대하여

1. 문제 제기 variance가 높으면 안좋다는 느낌? 이미지?인데 high variance가 overfitting이고 high bias가 underfitting이라는 것이 매칭이 잘 안된다. 2. bias에 대하여 위키피디아에서 ‘bias error는 learning 알고리즘에서 잘못된 가정으로부터 나온 error이다. high bias는 알고리즘이 feature와 target output 사이 관련있는 관계를 놓치도록 만든다. 이것을 underfitting이라고 한다 quora에서 어떤 사람의 답변을 보면 ‘bias는 training data로부터 머신러닝 모델이 학습하는 능력을 평가하는 metric이다. 그래서 high bias를 가진 모델은 training data나 test data 모두에 잘..

2021. 10. 4. 00:48

결정계수에 대한 오해

1. 결정계수에 대한 오해 결정계수(coefficient of determination) $R^2$은 많은 교재에서나 제곱이라는 그 모습 $R^2$때문에 0이상 1이하라고 오해하기 쉬운데 사실 결정계수는 음수일 수 있다 2. 제곱합 모든 독립변수 x에 대하여 종속변수 y를 가집니다. 가장 적합한 회귀직선을 그려 x의 값에 대하여 y의 값을 예측하고자 합니다. 2-1) 잔차제곱합 y의 예측값을 $\hat{y}$ 이라고 한다면 회귀직선이 예측한 값과 실제 y값의 차이를 이용해 error를 계산할 수 있습니다. 이러한 차이 error를 제곱하여 더한 것을 잔차제곱합이라 부르고 보통 SSE라고 표현합니다. $$SSE = \sum (y-\bar{y})^2$$ 2-2) 전체제곱합 다음으로 실제 y의 평균값을 계산할..