BART는 기계 독해, 기계 번역, 요약, 대화 등 sequence to sequence 문제의 pre training을 위한 denoising autoencoder 1. BERT와 BART BERT는 transformer의 encoder만 활용했음 각 단어의 encoder embedding을 가져와 embedding을 수치화시킨 뒤 정답의 시작과 끝의 위치를 알아맞추는 extraction에 어울림 BART는 transformer의 encoder와 decoder가 모두 존재하여 encoder에서 input의 encoding을 수행한 뒤 encoding을 바탕으로 decoder에서 decoding을 통해 실제 text를 generation할 수 있어서 generation based MRC의 기본 모델로 사..
1. exhaustive search decoding의 매 스텝마다 모든 가능한 경우에 대해 확률분포를 따져보겠다는 것이다. 모든 가능한 경로에 대해 확률을 계산하여 최종적으로 가장 확률이 높은 1가지를 선택한다 근데 이제 보면 알겠지만 계산비용이 O(VT)로 T가 조금만 커져도 말도 안되게 커진다 참고로 greedy decoding은 매 스텝마다 가장 확률이 높은 1가지만 뽑으니까 2. beam search greedy는 계산이 쉽지만 최적을 항상 보장하지 않는다는 점, exhaustive search는 계산 비용이 너무 많이 든다는 점에서 중간책을 선택하고 싶다는 것이다. 그렇다면 매 step마다 beam size=k개만 고려하겠다. 최종적으로 고려한 적절한 수의 후보들 중 가장 확률이 높은..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.