1. transformer 아키텍처 2017년 구글에서 발표한 Attention is All you need 논문에서 처음 등장 머신러닝을 통해 언어를 번역하는 기계 번역 성능을 높이기 위한 방법을 연구하였는데, 당시 널리 사용된 RNN에 비해 성능 면에서 큰 폭으로 앞섰다. 또한 RNN에 비해 모델 학습 속도도 빨랐다. 이렇게 완전히 새로운 형태의 모델이 성능과 속도 면에서 뛰어난 모습을 보여 많은 인공지능 연구자들이 각자 연구에 transformer를 적용하기 시작 현재 transformer은 자연어 처리는 물론 컴퓨터 비전, 추천 시스템 등 모든 AI 분야에서 핵심 아키텍처가 되었다. 기존에 자연어 처리 문제에서 사용하던 RNN은 다음과 같이 텍스트를 순차적으로 하나씩 입력하는 형태다 사람이..
1. block based model encoding의 마지막 단계로 residual connection, layer normalization 결과를 feed forward network라는 신경망에 넣어 다시 한번 변환을 거친다. 근데 특별히 왜 했다는 이유는 없는듯?? feed forward network후에도 residual connection을 수행하고 layer normalization을 수행하여 최종적인 encoder의 output인 hidden vector를 얻는다. 2. positional encoding 지금까지 연산의 결과는 사실 sequence의 순서 정보를 전혀 고려하지않았다. 직관적으로 당연하다. x1,x2,x3의 q,k,v를 한번에 만들어서 이것으로 attention을 수행하면서..