Loading...
2024. 6. 17. 21:49

L1 regularization vs. L2 regularization vs. elastic net 비교하기

1. elastic net 알고리즘 L1 regularization과 L2 regularization을 모두 사용한 regularization loss에 L1 term과 L2 term의 선형결합을 더해서 모델을 학습시키는 알고리즘   2. L1 , L2, elastic net 비교 L1, L2는 모두 계수 $\lambda$가 크면 클수록 parameter를 축소시킨다. L2는 parameter를 0으로 근사시키나 L1은 parameter를 완전하게 0으로 축소시키는 경향이 있다. L1은 무수히 많은 변수들이 있는데 영향력이 강력한 변수들은 별로 없다고 생각이 들면 대부분의 변수를 0으로 축소시켜 일부 변수만 선택하고자할때 유리함 그러나 L1은 covariate가 sample에 비해 충분히 많을 때 상관관..

2024. 1. 13. 02:35

Regularization에 대해 꼭 생각해봐야하는 점(L2 regularization, dropout의 단점, early stopping의 단점, data augmentation의 단점)

모델이 validation set에 성능을 내지 못할때, training data에 overfitting이 되었을때 데이터를 더 많이 얻는 것은 좋은 방법이지만 항상 그럴 수는 없다. 그럴때 시도하면 좋은 것이 regularization L2 regularization은 가중치 W의 L2 norm, L1 regularization은 가중치 W의 L1 norm을 더해주는데... 1. 여기서 하나 bias도 parameter인데 왜 가중치 W 항만 더해주는것인가? 모델의 거의 모든 parameter가 W에 집중되어 있기 때문에 bias를 더할수도 있지만 계산비용 대비 거의 차이가 없다고 한다 2. L2 regularization을 일반적으로 많이 사용한다. L1 regularization을 사용하면 가중치 ..

2024. 1. 12. 01:59

딥러닝 모델 training의 기본 법칙

1. 모델이 high bias인가? >> training set에 대한 성능이 좋은가? 안좋은가? training set에 대한 성능이 좋지 않다면, 더 깊은 network를 쓰거나 hidden layer, hidden unit을 많이 쓴다든지, epoch을 늘려 더 오래 training을 하거나 더 개선된 optimization 알고리즘을 사용하거나 더 좋은, 깊은 network를 사용하는 것은 거의 항상 도움이 되는 반면에 더 오래 training하는 것은 도움이 안되는 경우도 많지만, 시도해보는건 나쁠건 없다 ---------------------------------------------------------------------------------- 중요한건 최소한 high bias를 제거하는..

2023. 6. 29. 02:46

image to image translation의 기본 모델인 Pix2Pix이 GAN의 약점 mode collapse를 어떻게 해결했는가

1. image translation 하나의 이미지 스타일을 다른 이미지 스타일로 변화시키는 문제 흑백사진을 컬러사진으로 바꾸고 낮 사진을 밤사진으로 바꾸거나 스케치 사진을 실제 이미지 사진으로 바꾸는 단순한 문제부터 semantic segmentation 이미지를 일반 이미지로 바꾸거나 일반 인공위성 사진으로부터 지도를 출력하는 문제 등 다양하다 앞에서 다룬 super resolution도 하나의 예시 2. GAN loss의 치명적인 문제점 - mode collapse 앞에서 MAE loss는 평균적인 blurry한 이미지를 출력해준다며 안좋다고 했고 GAN loss가 실제 이미지에 가까운 사진을 출력해준다며 극찬을 했는데 실제로 GAN이 대단하다는 이미지 때문에 생각하기 어려운데 GAN은 사실 치명적..

2023. 6. 20. 02:35

CNN visualization2 - layer activation & class visualization

1. layer activation mid level feature와 high level feature를 분석하는 방법 모델의 layer의 activation map을 분석하여 layer가 어디에 집중하고 있는지를 파악하고자 했다 1-1) idea 분석하고자하는 특정 CNN layer의 채널을 선택 예시로 conv5 layer의 256개 채널중 14번째 채널을 선택 convolutional layer의 채널은 이미지를 받으면 그 이미지에 대해서 hidden node들이 얼마나 반응하는지 계산한 activation map을 출력한다 이미지를 넣어서 선택한 layer의 채널의 activation map을 저장 maximum activation value의 receptive field에 해당하는 input i..

2022. 11. 9. 15:31

pruning 기본 알고리즘, regularization과의 연관성 알아보기

1. iterative pruning network가 존재하면 neuron weight들의 중요도를 계산함 중요도가 적은 weight는 적절하게 제거함 이후 데이터를 다시 넣어 fine-tuning을 수행하면서 weight를 업데이트 pruning을 계속하고 싶으면 weight의 중요도를 다시 계산하여 위 과정을 반복 pruning을 중단하고 싶으면 그대로 사용.. 단 1번만 할 수는 있지만 보통 여러번 반복 pruning을 수행함 2. pruning의 알고리즘 N이 pruning의 반복수이고 X가 훈련데이터(fine-tuning에도 사용) 먼저 weight를 초기화하고 network를 training하여 weight를 convergence시킴 weight의 차원과 크기가 동일한 1로 가득찬 mask 행..