Loading...
2024. 4. 16. 21:13

transformer 간단요약2 - encoder, attention, positional encoding, decoder

1. encoder encoder는 self attention 구조와 feed forward Neural Network 구조의 두개의 sub layer로 구성되어 있다 단어 입력의 경우에는 먼저 embedding vector로 변환하는 것이 기본이다. 당연하지만 word embedding은 맨 밑단 첫 입력에서만 일어남 벡터 크기는 hyperparameter로 적절하게 정한다고 한다. embedding된 벡터 각각은 자기만의 경로를 따라 encoder를 지나간다 위에서 보면 첫 통과 layer로 self attention을 지나가는데 도대체 무슨 일이 일어날까? 예를 들어보면 ‘The animal didn’t cross the street because it was too tired.’을 생각해보자. 이..

2022. 5. 2. 21:02

multi-head attentiond 개념 알아보고 간단하게 구현해보기

지금까지 이야기한 것은 word embedding vector들의 self attention을 단 1번만 수행했다는 점인데 이것을 확장하여 여러번 수행하고 싶다는 것이다. 왜 여러번 수행해야할까? 단 1번의 self attention은 1가지 측면에서만 word들의 attention 측면을 고려하지만 필요에따라 attention 측면을 여러 방면에서 수행할 필요가 있다. 특히 매우 긴 문장의 경우 ‘I went to the school. I studied hard. I came back home. I took the rest.’를 생각해보자. 이 문장을 해석하기 위해 단어 I에 대해서 고려해야할 대상은 went, studied, came, took 등 동사 측면도 있지만 그것의 대상이되는 school, ..