Loading...
2021. 12. 1. 02:45

numpy array와 pandas에서 var을 구할 때 차이점

numpy array가 다음과 같이 주어진다. 여기서 분산을 구하고자 하는데 numpy.var()을 이용하여 구할 수 있다. 그런데 위 array를 pandas의 series에 넣어본다면 이 상태에서 분산을 구할려면 .var()을 하면 구할 수 있다 두 방식에서 구한 var에 차이가 있다 분명 같은 값들이 들어간 array로 var을 구한건데 왜 차이가 있을까? 그것은 numpy array에서는 var을 biased estimator로 구하기 때문이다. 모든 데이터 편차제곱합을 개수 N으로 나눠서 구한다 반면 pandas의 dataframe에서 var은 unbiased estimator로 구하기 때문이다. 그래서 두 값이 같게 만들려면 pd.Series에서 var의 옵션에 ddof=0으로 두면 두 값이 ..

2021. 10. 6. 07:05

머신러닝 모델에서의 bias와 variance에 대하여

1. 문제 제기 variance가 높으면 안좋다는 느낌? 이미지?인데 high variance가 overfitting이고 high bias가 underfitting이라는 것이 매칭이 잘 안된다. 2. bias에 대하여 위키피디아에서 ‘bias error는 learning 알고리즘에서 잘못된 가정으로부터 나온 error이다. high bias는 알고리즘이 feature와 target output 사이 관련있는 관계를 놓치도록 만든다. 이것을 underfitting이라고 한다 quora에서 어떤 사람의 답변을 보면 ‘bias는 training data로부터 머신러닝 모델이 학습하는 능력을 평가하는 metric이다. 그래서 high bias를 가진 모델은 training data나 test data 모두에 잘..