NLP에서 한 획을 그은 transformer은 왜 등장했는가 + bidirectional RNN의 특징

1. transformer는 왜 등장했는가 자연어를 입력받아 자연어를 생성하는 LSTM기반의 seq2seq의 성능을 개선한 transformer Attention is all you need, NeurIPS’17에서 발표 LSTM이나 GRU기반의 seq2seq는 추가적인 모듈로 attention을 사용했지만 transformer은 LSTM이나 GRU같은 RNN모듈을 걷어내고 attention 구조만 사용하여 더 이상의 RNN은 사용하지 않았다. 논문의 제목은 이러한 의미를 담고 있다. ‘오직 너에게 필요한것은 attention’ 왜 이것이 의미있을까? 이미 배웠지만 RNN은 구조상 매 step마다 이전 input의 정보를 쌓아나가며 일정한 차원에 계속해서 압축해나가기때문에 short term depend..