Loading...
2022. 3. 13. 22:19

GAN(Generative Adversarial Network)의 핵심 아이디어 미리보기

1. Generative model 의미 자체로만 생각해보면 그럴듯한 이미지나 문장을 만드는 모형? 하지만 단순히 무언가를 만드는 것만 generative model은 아니다. 개 사진을 학습한 확률모형에서 새로운 개 사진을 sampling 하는 generation 이러한 모형을 implicit model이라 한다. 새로운 사진을 주었을 때 개랑 비슷할수록 높은 확률을 뽑아내는 density estimation, 이러한 모형을 explicit model이라 한다. density estimation은 이상점 탐지(anomaly detection)에 사용할 수 있다. 입력 이미지들에서 공통 부분(개의 경우 귀나 꼬리)을 배우는 feature learning 2. GAN(Generative Adversaria..

2022. 3. 13. 21:53

DenseNet과 SENet의 핵심아이디어 살펴보기

1. DenseNet ResNet은 skip connect 과정에서 더했다면 DenseNet은 concatenation을 한다. 왜 이런 아이디어를 생각했을까? 둘을 더하면 x와 f(x)의 정보가 어떻게든 섞일테니까 concatenation으로 정보를 보존하면서 그냥 합치고 싶은 것이다. 문제는 둘을 단순히 합치는 concatenation은 parameter 수를 기하급수적으로 늘림 feature 특성을 더하면서 섞지말고 그대로 가져옴 그래서 중간마다 1*1 convolution을 통해 parameter 수를 줄이는 것이 핵심이다 dense block에서 concatenation으로 channel을 계속 늘려가면서 feature map을 그대로 가져옴. 너무 늘어나면 1*1 convolution 연산을 ..

2022. 3. 11. 22:58

딥러닝 모델에서 가중치를 초기화하는 방법(weight initialization)

신경망을 학습할 때 가중치를 초기화하고 update해야하는데 어떻게 초기화해야 학습에 좋을까? 단순히 0으로 시작해버린다면 gradient가 0으로 계산되는 경우가 많을 것. 너무 큰 값으로 시작한다면, 계산된 activation이 너무 커질 것. 단순한 예시로 위와 같은 신경망에서, bias = 0이라고 가정한다면... z = W1(W2(W3...(Wn(X))..))로 계산되는데, n개의 weight들의 곱에 input X의 곱으로 중간 output이 계산된다. 만약 weight들의 원소가 1보다 작은 값들이라면.. weight들을 곱할수록 0에 가까워진다. 하지만, 1보다 조금이라도 크다면 weight들을 많이 곱할수록 매우 커진다. 그러다보니 weight들을 처음에 어떤 값들로 시작하는게 딥러닝 학..

2022. 3. 8. 21:28

변형된 모델 학습방법 - semi-supervised training과 self-training

1. semi-supervised learning supervised learning은 label된 데이터를 사용해야한다. 그러나 label된 데이터는 대규모로 구축하는데는 비용이 너무 많이 든다 반면 unsupervised learning에서 활용하는 label이 필요없는 unlabel 데이터는 온라인상에서 무궁무진하게 아주 쉽게 수집하여 활용할 수 있다는 장점이 있다. 사실 대부분의 유용한 task는 supervised learning인데 unlabel된 데이터를 활용할 방법이 있지 않을까? unlabel된 데이터와 label된 데이터를 모두 사용하여 학습하는 방식이 semi-supervised learning이다. 1-1) semi-supervised learning using knowledge d..

2022. 3. 6. 20:21

유명한 model compression 논문 몇가지 미리보기

1. deep compression pruning과 quantization, huffman coding을 적절히 조합하여 model을 compression하는 기법을 소개 performance가 기존 모델과 비슷하면서도 압도적으로 parameter수를 줄였음 error는 기존 모델과 비슷한데 parameter수가 40배정도 감소시킨 당시 획기적인 논문 특정 모델에서 layer 단위에서도 compression시켜봄? 2. Once for all once-for-all network는 서로 다른 depth, width, resolution등을 가진 network의 조합 이런 network의 조합들을 서로 간섭없이 한번에 training하고 target device마다 적절한 sub network를 선정하여 ..

2022. 3. 5. 21:44

model compression에서 고려되는 특이한 제약조건들

1. CO2 emission model을 줄일 때 고려할 cost로 재밌는 것이 CO2 emission NAS 1번 train할 때 626155파운드(약 284톤)의 CO2 발생 그냥 생각없이 자원 많으니까 performance 올리겠다고 모델 돌리다가 엄청난 양의 CO2 발생 별거 아닌 양이면 무시하겠지만 284톤이면 무시할만한 양은 아니니 고려해야할 중요한 constraint transformer도 CO2 엄청 나온다고 했던것 같은데 아닌가??? 2. model size 모델 크기를 줄이려는 compression에서 size는 당연히 고려해야할 중요한 사항이다. compression으로 줄였다고 생각했지만 output으로 나온 model의 size가 생각보다 커버리면 문제가 있음 앱스토어에 150mb..