1. introduction 이미 학습된 network에서 중요도가 낮은 parameter를 제거하여 model의 size를 줄이고자 하는 작업 parameter의 중요도를 어떻게 정의해야 좋은지 생각해보는 것이 주요 연구 과제 weight의 L2 norm이 크면 기여도가 높은 parameter? gradient가 크면 중요도가 높은 weight? 혹은 둘을 합쳐서 평가할 수도 있고 또 다른 metric을 생각해볼 수도 있다 학습된 parameter의 일부가 제거된 모습 2. structured pruning parameter를 그룹 단위로 pruning하는 기법들을 모두 일컫는 말 그룹이라는 것은 channel단위일수도 있고 filter 단위나 layer 단위일수도 있음 필요없는 (0에..
1. in batch negatives 두 encoder BERTp와 BERTq는 어떻게 training을 할까? query와 연관된 passage인 ground truth passage와는 최대한 거리가 가깝도록 embedding을 함 nearest neighbor의 L2 distance를 좁힐 수 있지만 강의에서는 inner product를 최대화 시킴 (question,passage) pair dataset은 어디서 구하냐고? 기존 MRC dataset인 KorQuAD, SQuAD 등 활용 기존 MRC dataset을 활용하면 하나의 query에 대해 정답인 passage와 정답이 아닌 passage가 있다 전자인 정답 passage를 positive sample, 정답이 아닌 passage는 ne..
1. overview 가지고 있는 passage를 BERTp라는 encoder에 넣어 hp라는 passage embedding을 가지고 있는 모든 passage에 대해 얻음 query는 BERTp와는 parameter가 다른 BERTq라는 encoder에 넣어 question embedding hq를 얻는다. 여기서 중요한 점은 hp와 hq는 size가 같아야한다. inner product score를 구하려면.. passage embedding과 query embedding을 얻으면 유사도를 계산할 수 있다. 일반적인 방식은 dot product로 유사도에 대한 scalar value를 얻는다. 질문은 하나고, passage는 여러개니까 하나의 질문 embedding인 hq에 대해 모든 hp와의 유사도..
1. passage embedding 하나의 단락 passage를 embedding으로 변환하는 것 주어진 단락이 가지는 뜻을 담는 숫자를 가지는 벡터에 mapping하는 것이 목표 passage embedding은 문서를 벡터로 변환하는 것이다. 2. sparse embedding TF-IDF같은 embedding은 벡터 크기가 매우 크지만 0인 숫자가 대부분인 sparse vector이다. 기반이 bag of words로 vocab의 특정 단어가 문서에 있는 경우만 nonzero가 되므로 거의 대부분 90%이상의 원소가 0인 경우가 종종 발생함 차원 수가 매우 큰 경우가 대부분인데 compressed format으로 어느 정도는 극복 가능함 예를 들어 nonzero 위치와 그 값만 저장하여 공간을 절..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.