Loading...
2023. 12. 7. 01:49

cross validation out of fold prediction

model training시 cross validation을 통해서 model의 fold를 여러개 나눠서 out of fold validation 성능을 측정하고 test data예측을 통해 성능 향상을 유도 대충 데이터가 다음과 같이 생겼는데 2009/12~2011/11까지 데이터가 존재하고 우리가 예측해야할 것은 2011/12 train data는 2009/12~2011/11이고 test data는 2011/12 1) 2009/12~2011/11에서 적절하게 train과 validation을 label별로 고른 비율을 가지도록 stratified k fold split함 2) 각 fold별로 validation 예측을 하고 예측한 것을 out of fold에 하나 하나 다 모으는 거 3) 그리고 각 ..

2023. 5. 5. 01:35

validation set의 필요성 이해하기 재활

1. validation set은 왜 필요할까 1-1) 필요성 학습 후 test set에 적용하여 모델의 성능을 평가해야하는데 학습 과정에는 평가하기 위한 데이터가 없으니 제대로 학습을 하고는 있는 것인지 정확한 검증이 어려움 학습에 이용되지 않은 데이터로 모델이 학습을 잘 하고 있는지 중간 검증을 하고 있는 것은 분명히 필요함 일반화를 잘 하고 있는지 아닌지 판단이 가능함 test set을 학습 중에 사용할 수는 없으니 train set의 일부로 validation set을 만들어 남은 train set으로 학습을 진행하고 validation set으로 중간 검증을 수행 data가 오히려 줄어드는 것이 아닌가? train set으로부터 validation set을 만들면 데이터가 줄어들어서 오히려 bi..

2022. 1. 17. 21:42

여러가지 cross validation 방법들

1. cross validation의 목적 과적합을 피하고 parameter를 튜닝하면서 일반적인 더욱 신뢰성있는 모델을 만들기 위해서이다. 2. holdout validation - validation set이 왜 필요할까?- validation set은 왜 필요한가? 일반적으로 train set과 test set을 7:3의 비율로 나누는데 그런 경우 train한 모델이 train set에만 과적합될 가능성이 매우 높다. 그래서 train set을 train과 validation set으로 나누는데 이 경우 validation set으로 train model을 평가하면서 hyperparameter를 튜닝할 수 있게 된다. 이렇게 데이터셋을 나누는 것을 holdout validation이라 한다. 그런데..

2022. 1. 3. 20:06

cross validation이란?

k-fold validation이라고도 한다. 보통 모형의 성능을 높이기 위해서 주어진 전체 data를 train data + validation data와 test data로 나눈다. train data는 학습을 위해 사용되는 부분이고 validation data는 학습한 모형의 성능을 평가하면서 hyperparameter를 튜닝하기 위해 사용한다. test data는 오직 최종 모형의 성능을 평가하기 위해서만 사용한다. 그런데 이들을 어떻게 나눠야 할까? train data를 k개의 fold로 나누고 그 중 k-1개를 train, 나머지 1개를 validation data라 하고 학습을 진행한다. 1-1) k-1개를 선택하는 모든 경우에 대해 반복하여 진행하고 그들의 적절한 평균으로 최종 모형 선택 ..