Loading...
2022. 12. 31. 01:57

값싼 비용으로 최대 효율을 낼 수 있을까 - lottery ticket hypothesis

1. introduction research의 트렌드를 바꿔버린 혁명적인 가설로 한번 제기된 이후 후속논문이 지금까지도 나오고 있음 첫 network인 A를 parameter initialization을 하고 적당히 training을 하여 91%의 정확도를 얻었다고 하자. 이후 training된 network를 pruning하여 B를 얻었다고 한다. 이 때 B의 현재 parameter에서 mask로 가려지지 않은 부분을 A의 첫 initialization된 parameter로 reset한 다음에 정확히 A와 동일한 training방법을 사용하여 reset한 B를 training하면 91%에 가까운 정확도를 얻을 수 있는 그런 network B가 존재할 수 있다는 뜻이다. 이런 network B를 lott..

2022. 11. 14. 16:26

iterative pruning의 여러가지 변형 버전 알아보기

1. iterative pruning pruning을 한번에 너무 많이 하여 많은 weight를 한번에 제거하고 retraining을 하면 정확도가 회복이 안된다는 사실이 알려짐 그래서 pruning을 조금씩 하고 retraining하고 다시 조금씩 하고 retraining하는 iterative pruning을 수행함 iterative pruning을 하는 이유는 조금씩 제거해야 retraining으로 정확도가 회복이 되니까 2. iterative pruning 알고리즘1 network의 weight parameter와 모든 원소가 1로 가득찬 mask를 초기화하고 mask를 먼저 씌우네 근데 1로 가득찬 초기 mask는 씌우나 마나니까 network를 train한다 적절한 pruning을 통해 mask..

2022. 3. 11. 22:58

딥러닝 모델에서 가중치를 초기화하는 방법(weight initialization)

신경망을 학습할 때 가중치를 초기화하고 update해야하는데 어떻게 초기화해야 학습에 좋을까? 단순히 0으로 시작해버린다면 gradient가 0으로 계산되는 경우가 많을 것. 너무 큰 값으로 시작한다면, 계산된 activation이 너무 커질 것. 단순한 예시로 위와 같은 신경망에서, bias = 0이라고 가정한다면... z = W1(W2(W3...(Wn(X))..))로 계산되는데, n개의 weight들의 곱에 input X의 곱으로 중간 output이 계산된다. 만약 weight들의 원소가 1보다 작은 값들이라면.. weight들을 곱할수록 0에 가까워진다. 하지만, 1보다 조금이라도 크다면 weight들을 많이 곱할수록 매우 커진다. 그러다보니 weight들을 처음에 어떤 값들로 시작하는게 딥러닝 학..