Loading...
2021. 10. 6. 19:45

p-value에 대한 오해

1. 문제 제기 빅데이터분석기사, ADsP를 공부하면서 p-value에 대한 정의가 이상한 것 같아서 이번 기회에 정리를 해볼려고 한다. 2. p-value에 대한 오해 2-1) p-value가 관측된 검정통계량이 귀무가설을 지지하는 방향으로 관찰될 확률? 2-2) p-value는 제1종오류를 일으킬 확률? 3. p-value의 정의 위키피디아에서 ‘In null hypothesis significance testing, the p-value is the probability of obtaining test results at least as extreme as the results actually observed, under the assumption that the null hypothesis is ..

2021. 10. 6. 07:05

머신러닝 모델에서의 bias와 variance에 대하여

1. 문제 제기 variance가 높으면 안좋다는 느낌? 이미지?인데 high variance가 overfitting이고 high bias가 underfitting이라는 것이 매칭이 잘 안된다. 2. bias에 대하여 위키피디아에서 ‘bias error는 learning 알고리즘에서 잘못된 가정으로부터 나온 error이다. high bias는 알고리즘이 feature와 target output 사이 관련있는 관계를 놓치도록 만든다. 이것을 underfitting이라고 한다 quora에서 어떤 사람의 답변을 보면 ‘bias는 training data로부터 머신러닝 모델이 학습하는 능력을 평가하는 metric이다. 그래서 high bias를 가진 모델은 training data나 test data 모두에 잘..

2021. 10. 4. 00:48

결정계수에 대한 오해

1. 결정계수에 대한 오해 결정계수(coefficient of determination) $R^2$은 많은 교재에서나 제곱이라는 그 모습 $R^2$때문에 0이상 1이하라고 오해하기 쉬운데 사실 결정계수는 음수일 수 있다 2. 제곱합 모든 독립변수 x에 대하여 종속변수 y를 가집니다. 가장 적합한 회귀직선을 그려 x의 값에 대하여 y의 값을 예측하고자 합니다. 2-1) 잔차제곱합 y의 예측값을 $\hat{y}$ 이라고 한다면 회귀직선이 예측한 값과 실제 y값의 차이를 이용해 error를 계산할 수 있습니다. 이러한 차이 error를 제곱하여 더한 것을 잔차제곱합이라 부르고 보통 SSE라고 표현합니다. $$SSE = \sum (y-\bar{y})^2$$ 2-2) 전체제곱합 다음으로 실제 y의 평균값을 계산할..