Loading...
2022. 12. 31. 18:13

머신러닝 모델링 기본방법 - bootstrapping, bagging, boosting

1. bootstrapping 현재 데이터를 복원추출로 random sampling하여 얻은 여러 데이터로 학습하는 기법 각각의 sample 각각에서 모델을 만들어 예측의 consistence를 보고자 하는 것임 혹은 데이터가 부족할 때 데이터를 늘리고자 쓰는 기법 위 그림은 bootstrapping을 이용한 bagging을 나타낸다고 볼 수 있겠다 2. bagging bootstrapping으로 만든 데이터 set으로 여러 모델을 만들고 각 모델의 성능을 적절하게 aggregation 한다 aggregation하는 방법은 voting이나 averaging 등이 있다. 보통 모든 학습데이터를 써서 결과를 내는게 성능이 좋아보이지만 의외로 80% sampling bootstrapping 하여 얻은 bagg..

2022. 2. 21. 20:42

표집분포(sampling distribution)와 표본분포(sample distribution)

1. 모집단이란?(population) 연구자가 관심있어하는 주제를 모두 나타낼 수 있는 개인이나 어떤 값의 전체 모임 대한민국 사람들의 평균키를 조사하고 싶을 때? 전체 대한민국 사람들이 모두 대상이 되는데 이것이 population distribution ----------------------------------------------------------------------------------------------------------- 모집단은 생각보다 미묘한 개념일 수 있다 어떤 표본을 추출할 수 있는 모집단에는 3가지 유형이 있다 1) 말 그대로의 모집단: 한 예로 여론조사에서 무작위로 한 명을 뽑는, 확인 가능한 집단이 있다. 관측 가능한 개인들로 구성된 집단도 여기에 해당한다. 실제로..

2021. 10. 27. 18:24

bagging이란?

1. bootstrap sampling 1-1) 주어진 하나의 data set에서 매 회 일부를 random sampling하여 여러 개의 data set을 구성하는 방법입니다. 예를 들어 100개의 data가 존재하는 하나의 data set이 있을 때 5번 30개씩 random dampling한다면 30개, 30개, 30개, 30개, 30개씩 데이터가 존재하는 총 5개의 dataset을 얻게 됩니다. 통계학적으로는 단 1set로 통계량을 추정하면 불확실하게 추정할 수 있는데 여러 set로 통계량을 추정하면 더욱 확실하게 추정할 수 있는 효과를 가집니다. 딥러닝에서는 데이터가 충분하지 않더라도 여러 데이터 set을 활용할 수 있으므로 ensemble효과를 가집니다. 1-2) 보통 여기까지는 다들 알고있지..