Loading...
2022. 4. 9. 02:06

attention 구조는 왜 등장했을까? -attention의 근본 아이디어-

seq2seq 논문에서는 attention구조를 alignment라고 칭하였다. 1. bottleneck problem 물건이 순차적으로 전달되는데 어느 순간 막혀서 전달되는 양이 점점 적어지는 현상. RNN에서 hidden state vector가 step이 지날수록 점점 정보량이 줄어드는 현상이 이와 비슷해서 이름 붙여짐 bottleneck problem을 그림으로 표현 RNN구조는 그 특징이 앞에서부터 읽어들인 정보를 순차적으로 hidden state vector로 쌓아간다. 심지어 모든 모듈은 공유되어있어서 모든 hidden state vector의 차원이 동일하다. sequence가 길수록 정보를 멀리 보내면서 많은 정보가 쌓이지만 동일한 차원에 압축해야 하기때문에 필연적으로 정보의 손실이 발생..

2022. 4. 5. 01:12

seq2seq model이란?

0. seq2seq는 왜 등장했는가? “말은 끝까지 들어봐야 안다.” 예를 들어 일반적인 RNN의 챗봇을 생각해보자. 사람이 I broke up yesterday라고 적으면 챗봇은 broke up를 보고 슬픈 단어를 생성할 확률이 높아져서 sorry to hear that을 생성 그런데 그 이후 사람이 Today’s perfect weather makes me much sad를 쳤는데 분명 슬픈 문맥인데 챗봇은 perfect weather만 보고 긍정적인 단어를 생성할 확률이 높다가 sad보면서 꼬이기 시작해서 제대로 생성을 못함 그래서 나온 seq2seq는 문장을 encoder에 넣어서 문맥 정보를 decoder에 보낸 뒤 단어를 생성하고 그 단어를 받아 다음 단어를 생성하는 등 모든 문장을 들은 뒤 ..

2022. 2. 5. 21:21

시대를 뒤흔든 딥러닝의 아이디어들

1. 2012 AlexNet AlexNet 이전에는 고전적인 svm 등이 대회에서 1등을 했으나 AlexNet 이후 딥러닝 모델이 대회 1등을 놓친 적이 없다 224*224 이미지를 분류하는 CNN 왜 잘되는지 모르겠지만 인간을 모방한다니까 잘될 것 같다던 막연한 믿음의 유망주 딥러닝이 실제 성능을 발휘한 계기 2. 2013 DQN 딥마인드가 처음 개발한 알고리즘 그림에서 보이는 아타리 게임을 인간 수준으로 플레이할 수 있는 강화학습 알고리즘 아무것도 알려주지 않고 마음대로 플레이하게 놔두면, 처음엔 버벅거리다가 점점 스스로 게임을 이해하여 공략법을 익히고 실제로는 고수의 플레이를 보여준다 이후 딥마인드는 구글에 인수되어 알파고를 개발하였다 3. 2014 encoder/decoder 언어를 번역하는 아이..