'딥러닝/NLP' 카테고리의 글 목록 (2 Page)

T5 모델 간단하게 알아보기

1. introduction text-to-text format을 적극적으로 밀었던 사실상 첫번째 model? BART랑 유사하면서도 text-to-text format을 활용하여 거의 모든 자연어처리 문제를 text-to-text format으로 해결하자고 제안했다 자세한 부분은 조금 다르겠지만 seq-to-seq original transformer와 유사한 구조를 사용했다 2. pre-training 다양한 모델 구조, 다양한 사전학습목표, 방대한 사전학습용 데이터셋, 다양한 fine tuning 방법등을 마련하여 체계적으로 실험을 수행 당연하지만 이들 중 가장 좋은 방식을 선택하여 방대한 규모의 모델을 학습시킴 BERT나 BART와 마찬가지로 T5같은 모델을 방대한 언어에 사전학습시켜서 fine-..

format_list_bulleted NLP
· 2024. 4. 7.
textsms

text-to-text format 방법론 간단하게

1. motivation GPT-2로 closed question answering의 가능성을 본 이후로 등장한 방법론 closed question answering는 generation MRC와 유사하다. 단, 둘의 차이라면 전자는 지문없이 질문만 들어간다 closed question answering도 BART같은 seq-to-seq transformer기반의 모델을 사용함 text-to-text format은 그 이름처럼 모든 종류의 NLP task를 text에서 text로 mapping하는 방식으로 치환하겠다는 방법론 input text 앞에 task에 대한 설명을 붙여준다. 그러면 모델이 처음 보는 task더라도 가지고 있는 언어 지식만으로 task를 이해하여 수행한 output을 출력할 수 있..

format_list_bulleted NLP
· 2024. 4. 4.
textsms

RNN을 개선한 LSTM(Long short term memory)

1. introduction Vanilla RNN을 개선하였다. 그래서 gradient vanishing/exploding을 개선하여 좋은 성능을 보임 the problem of long term dependency를 해결하고자 time-step이 먼 경우에도 필요한 정보를 처리할 수 있도록 단기로 기억되는 hidden state 정보를 길게 가져오자. Vanilla RNN은 현재 input의 정보와 이전 시점의 hidden 정보를 조합하여 새로운 hidden 정보를 만든다. $h_{t} = f_{w}(x_{t} + h_{t-1})$ 반면 LSTM은 전 시점에서 다른 역할을 하는 2가지 정보와 input 정보를 이용함 $$f(C_{t}, h_{t}) = LSTM(X_{t}, C_{t-1}, h_{t-..

format_list_bulleted NLP
· 2023. 7. 27.
textsms

RNN의 특별한 학습방법 Backpropagation through time 이해해보기

1. Backpropagation through time RNN의 backpropagation 알고리즘 모든 token을 계산하면서 ground truth와 비교하면서 loss를 최소화하는 방향으로 backpropagation을 통해 gradient를 계산 그런데 수백, 수천만 길이의 sequence면 한정된 GPU에서 계산이 불가 2. Truncated backpropagation through time 그러니까 일부 time을 잘라가지고 만든 여러개의 truncation을 만든다. 그래서 제한된 sequence를 가지는 truncation에서 backpropagation을 진행하고 다음 truncation에서도 진행하고 과정을 반복한다 자른 구간에서는 이제 GPU가 허용하는 한에서 backpropag..

format_list_bulleted NLP
· 2023. 7. 12.
textsms

RNN의 여러가지 유형(one to one, one to many, many to one, many to many) 되돌아보기

RNN이 하나의 input을 넣어서 하나의 output이 나온다고만 생각해서는 안된다 이미지를 넣고 문장을 생성하는 one to many 문장을 넣고 문장의 감정 label을 생성하는 many to one 혹은 여러 날의 주가를 넣고 다음날 주식의 종가를 예측한 many to one 1. one to one sequence data가 아닌 일반적인 input을 받는 neural network의 구조 다음은 키,나이,몸무게 3차원 벡터를 갖는 input을 입력하여 혈압의 범주를 예측하는 one to one neural network 2. one to many input이 하나이고 여러개의 output을 출력하는 구조 근데 주의할 점은 사실 input이 하나인 것 처럼 보이지만 하나가 아니다. 들어가지 않는..

format_list_bulleted NLP
· 2023. 7. 11.
textsms

Vanilla RNN에서 hidden vector로 예측값을 만드는 과정

hidden vector의 차원은 hyperparameter이다. 여기서는 2차원이라고 가정해보자. 3차원의 입력벡터 $X_{t}$ 가 들어가고 2차원의 hidden state vector인 $h_{t-1}$ 이 RNN의 입력으로 들어간다고 해보자. 처음에는 $X_{t}$ 와 $h_{t-1}$ 이 concatenation되어 hidden layer에 fully connected 된다. 당연하지만 $h_{t-1}$ 이 2차원이기때문에 $h_{t}$ 를 뽑아내는 layer의 차원도 2차원이다. hidden layer의 선형변환 W와 입력벡터의 곱 WX에 nonlinear activation인 tanh(WX)로 $h_{t}$ 가 뽑힌다. Vanilla RNN이 실제로 tanh()를 activate function으로 썼다..

format_list_bulleted NLP
· 2023. 7. 11.
textsms

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

T5 모델 간단하게 알아보기

text-to-text format 방법론 간단하게

RNN을 개선한 LSTM(Long short term memory)

RNN의 특별한 학습방법 Backpropagation through time 이해해보기

RNN의 여러가지 유형(one to one, one to many, many to one, many to many) 되돌아보기

Vanilla RNN에서 hidden vector로 예측값을 만드는 과정

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역