Loading...
2024. 4. 16. 21:13

transformer 간단요약2 - encoder, attention, positional encoding, decoder

1. encoder encoder는 self attention 구조와 feed forward Neural Network 구조의 두개의 sub layer로 구성되어 있다 단어 입력의 경우에는 먼저 embedding vector로 변환하는 것이 기본이다. 당연하지만 word embedding은 맨 밑단 첫 입력에서만 일어남 벡터 크기는 hyperparameter로 적절하게 정한다고 한다. embedding된 벡터 각각은 자기만의 경로를 따라 encoder를 지나간다 위에서 보면 첫 통과 layer로 self attention을 지나가는데 도대체 무슨 일이 일어날까? 예를 들어보면 ‘The animal didn’t cross the street because it was too tired.’을 생각해보자. 이..

2024. 4. 16. 20:42

transformer 간단요약1 - transformer의 핵심 아이디어, 무엇을 이해해야하는가

1. sequential model의 어려운 점 sequence data가 다루기 어렵다는 이유 중 input의 차원이 어느 정도인지 알기 어렵다는 점이 있었다. 추가로 시간 순서가 바뀌어서 들어온다든지 일부가 잘려서 들어온다든지 아니면 섞여서 들어온다든지 그래서 또 다루기가 어렵다 2. transformer 핵심 아이디어 위와 같은 input의 무작위성 때문에 sequence data를 다루기 어렵다는 한계를 극복하고자 등장했다. 처음 도입되었을 때는 기계어 번역 문제를 풀기 위해 도입했다. 지금은 이미지 분류, detection 등 다방면에서 활용되고 있다. sequence를 다루는 모델인데 그 동안 RNN이 재귀적구조를 활용했다면 Transformer은 attention구조를 활용했다. 3. tra..

2024. 3. 6. 01:31

BERT와 BART 비교하면서 간단하게 알아보기(+greedy, beam, exhaustive search)

BART는 기계 독해, 기계 번역, 요약, 대화 등 sequence to sequence 문제의 pre training을 위한 denoising autoencoder 1. BERT와 BART BERT는 transformer의 encoder만 활용했음 각 단어의 encoder embedding을 가져와 embedding을 수치화시킨 뒤 정답의 시작과 끝의 위치를 알아맞추는 extraction에 어울림 BART는 transformer의 encoder와 decoder가 모두 존재하여 encoder에서 input의 encoding을 수행한 뒤 encoding을 바탕으로 decoder에서 decoding을 통해 실제 text를 generation할 수 있어서 generation based MRC의 기본 모델로 사..

2024. 3. 5. 02:26

generation based MRC 모델링 방법 간단하게 알아보기

1. MRC문제를 푸는 방법이란 지문과 관련된 질문을 받고 답을 내는 방법은 지문 내에 명시적으로 존재하는 답의 위치를 반환하는 extraction based MRC 지문 내 token에 대한 embedding을 가져와 이것이 정답의 시작점인지 아닌지, 끝점인지 아닌지 token classification 문제로 변환 또 하나의 방법은 지문 내 답의 위치를 말하는 것이 아니라 답변 text를 생성하는 방법이 있다 이 문제가 조금 더 어려운 이유는 실제로 지문 내에 정답이 있을수도 있고 없을수도 있다는 점. 그럼에도 불구하고 주어진 질문에 주관식으로 기술하듯이 정답 text를 생성해야하는 점 정답이 존재하더라도 정답의 위치를 파악하는 것이 아니라 모델이 해당 정답을 생성하도록 유도하는 것이고 실제로 생성한..

2023. 7. 11. 02:41

RNN의 여러가지 유형(one to one, one to many, many to one, many to many) 되돌아보기

RNN이 하나의 input을 넣어서 하나의 output이 나온다고만 생각해서는 안된다 이미지를 넣고 문장을 생성하는 one to many 문장을 넣고 문장의 감정 label을 생성하는 many to one 혹은 여러 날의 주가를 넣고 다음날 주식의 종가를 예측한 many to one 1. one to one sequence data가 아닌 일반적인 input을 받는 neural network의 구조 다음은 키,나이,몸무게 3차원 벡터를 갖는 input을 입력하여 혈압의 범주를 예측하는 one to one neural network 2. one to many input이 하나이고 여러개의 output을 출력하는 구조 근데 주의할 점은 사실 input이 하나인 것 처럼 보이지만 하나가 아니다. 들어가지 않는..

2023. 4. 25. 02:07

논문읽으면서 Variational Autoencoder 복기

A Hierarchical Latent Vector Model for Learning Long-Term Structure in Music | Papers With Code Papers with Code - A Hierarchical Latent Vector Model for Learning Long-Term Structure in Music Implemented in 7 code libraries. paperswithcode.com 기본적으로 우리 모델은 autoencoder이며, 다시 말해 정확하게 input을 reconstruct하는 것을 목표로 한다. 그러나 우리는 추가적으로 새로운 sample을 만들어내고 잠재 공간의 interpolation과 attribute vector의 연산을 수행하길 원한..