Loading...
2023. 5. 5. 01:19

앙상블(ensemble) 기본 개념 제대로 이해하기

0. bias와 variance 1) overfitting model이 학습을 너무 해버리면 모델의 차원이나 복잡도가 증가 데이터의 세세한 부분까지 fitting하는 overfitting 현상 발생 모든 데이터는 noise가 존재하는데 overfitting하면 데이터의 noise까지 세세하게 fitting하게 되는 경향성을 가짐 다양한 데이터가 나올 가능성이 높다. 넓은 범위에서 데이터가 나올 가능성이 높아서 high variance라고도 부른다 2) underfitting 반면 학습을 너무 하지 않으면 너무 데이터를 고려하지 않게 된다 데이터를 많이 fitting하지 못한다 일부분에만 fitting되어 일부분에만 편향된다고 하여 high bias라고도 부른다 data set을 만드는 과정에서 일반화를 ..

2022. 11. 9. 01:30

딥러닝 경량화 기법 pruning은 무엇이고 왜 등장했는가

1. motivation 태어날 때 50조개의 neuron이 있는데 1년 뒤에는 1000조개의 neuron이 있다고함 이제 어른이 되면서 자주 쓰는 neuron은 보존하면서 자주 쓰지 않는 neuron은 없어지면서 500조개로 줄어든다고함 비슷한 원리로 막 설계한 machine learning model을 training하면서 complexity를 늘려가는데 자주쓰는 parameter는 살리고 자주 쓰지 않는 parameter는 제거 중요한 parameter는 살리고 중요하지 않은 parameter는 제거하는 기법 neural network뿐만 아니라 decision tree에서도 주로 사용해왔다 2. pruning을 왜 하는가? network의 parameter를 잘라내니까 복잡도가 감소함 복잡도가 감..

2021. 11. 1. 19:25

Adaboost 모형

boosting 알고리즘 중에 여러개의 model을 만들어 voting시킨다는 것이 조금 이상하다는 생각이 들 수도 있을 것 같습니다. boosting에서 말한 알고리즘 중 두 번째 알고리즘이 Adaboost인데요. 조금 더 구체적이지만 아주 간단하게? 설명하자면 다음과 같습니다. 전체 train data에서 random하게 data를 뽑습니다. random하게 data를 뽑은 sample로 하나의 model A를 학습합니다. 참고로 Adaboost에서 사용한 model A는 random forest가 완전한 tree를 사용하던 것과는 조금 다르게 두 개의 leaf만 가지는(1번만 분기하는) stump라는 tree를 사용합니다. 학습한 A로 전체 train data에 대해 validation을 수행합니다..