Loading...
2022. 4. 9. 02:06

attention 구조는 왜 등장했을까? -attention의 근본 아이디어-

seq2seq 논문에서는 attention구조를 alignment라고 칭하였다. 1. bottleneck problem 물건이 순차적으로 전달되는데 어느 순간 막혀서 전달되는 양이 점점 적어지는 현상. RNN에서 hidden state vector가 step이 지날수록 점점 정보량이 줄어드는 현상이 이와 비슷해서 이름 붙여짐 bottleneck problem을 그림으로 표현 RNN구조는 그 특징이 앞에서부터 읽어들인 정보를 순차적으로 hidden state vector로 쌓아간다. 심지어 모든 모듈은 공유되어있어서 모든 hidden state vector의 차원이 동일하다. sequence가 길수록 정보를 멀리 보내면서 많은 정보가 쌓이지만 동일한 차원에 압축해야 하기때문에 필연적으로 정보의 손실이 발생..

2022. 3. 13. 21:53

DenseNet과 SENet의 핵심아이디어 살펴보기

1. DenseNet ResNet은 skip connect 과정에서 더했다면 DenseNet은 concatenation을 한다. 왜 이런 아이디어를 생각했을까? 둘을 더하면 x와 f(x)의 정보가 어떻게든 섞일테니까 concatenation으로 정보를 보존하면서 그냥 합치고 싶은 것이다. 문제는 둘을 단순히 합치는 concatenation은 parameter 수를 기하급수적으로 늘림 feature 특성을 더하면서 섞지말고 그대로 가져옴 그래서 중간마다 1*1 convolution을 통해 parameter 수를 줄이는 것이 핵심이다 dense block에서 concatenation으로 channel을 계속 늘려가면서 feature map을 그대로 가져옴. 너무 늘어나면 1*1 convolution 연산을 ..