Loading...
2022. 5. 20. 10:29

TF-IDF(term frequency - inverse document frequency) 기본 맛보기

1. introduction 특정한 term의 등장빈도를 보면서 그 term이 제공하는 정보량까지 고려하겠다는 방법 단어가 제공하는 정보량은 사건이 희귀하게 발생하면 그 사건에 담긴 정보량은 많다는 것을 상기해보면 문서에서 덜 등장할수록 해당 단어가 주는 정보량이 많다는 것 2. term frequency 특정 단어가 해당 문서에 몇번 나오는지 빈도수를 계산하는 것 bag of words는 해당 문서에 몇번 나오든 관계없이 나오기만 하면 1, 없으면 0을 부여함 반면 term frequency관점에서는 여러번 등장하면 등장하는 만큼의 빈도수를 부여함 보통은 문서 내 총 단어수로 나눈 normalize 빈도수를 사용하여 0과 1사이의 값으로 나타내며 총 합은 1 이하가 되도록 만든다 3. Inverse d..

2022. 5. 19. 20:19

Sparse embedding

1. embedding space 지문을 vector space에 mapping하여 하나의 vector로 나타냄 vector space는 여러 숫자들로 이루어진 포인트들이 모인 상당히 고차원의 추상적인 공간 이렇게 지문을 embedding space 위에 벡터로 나타내면 두 지문 사이 유사성을 두 벡터 사이 거리를 이용해 계산할 수 있다. 2. bag of words sparse하다는 뜻은 dense의 반댓말로 0이 아닌 숫자가 상당히 적다는 뜻 바꿔말하면 대부분이 0인 원소를 가지는 벡터가 sparse vector bag of words의 기본형은 문서에 vocab의 각 단어가 존재하면 1, 존재하지 않으면 0을 부여하여 아주 긴 벡터로 표현하는 방법 특정 단어가 존재하는지 아닌지로만 표현함 벡터의 길..

2022. 5. 19. 19:54

Passage retrieval modeling

1. introduction 질문이 주어지면 관련된 문서를 데이터베이스에서 찾아서 내놓는 것이다. 데이터베이스 자체는 다양할 수 있다. 구조화된 데이터베이스나 위키피디아 같은 일반적인 웹이 모여있는 문서 위키피디아에 토트넘을 검색하면 관련된 문서가 나오는 과정을 도식화 2. importance 그동안 MRC는 지문이 주어진다고 가정하고 그에 대한 질문으로 모델이 만들어졌다고 가정한다 즉 질문은 무언가가 있어야 답이 가능하다. 무언가에 해당하는 지문이 주어져야 MRC 모델을 만들 수 있다는 말 바꿔말하면 질문에 맞는 지문을 주는 모델이 있어야 MRC 모델이 의미가 있다 만약 MRC와 passage retrieval을 연결할 수 있다면? Open Domain Question Answering 모델을 만들 수..

2022. 5. 18. 20:03

transformer의 마지막 encoder-decoder multi head attention

1. encoder-decoder multi head attention decoder의 2번째 attention layer는 특별하게 encoder decoder multi head attention으로 불린다. decoder의 masked self attention 이후 나온 결과는 Query로 들어오고 encoder의 최종 결과로 나오는 hidden vector는 적절하게 변형?되어 key,value로 들어온다 decoder의 query는 encoder가 이해한 맥락정보로부터 받아온 key value중 어떠한 정보에 더 집중할지 attention 연산을 수행하게 된다. 그 후 residual connection, layer normalization을 거치고 나온 결과에 encoder가 그랬던 것처럼 ..

2022. 5. 18. 02:09

transformer decoder에 사용된 masked self attention에 대해 알아보고 구현하기

decoder는 특이하게 masked multi head attention을 먼저 수행한다. 이것은 decoder 내부에서 이루어지는 self attention 과정으로 decoder의 input sequence끼리만 이루어진다. 언어모형을 학습시킬때 이미 정답을 아는 상태에서 학습을 시킨다. i go home을 번역하라고 할때 decoder에는 ' 나는 집에 간다'를 넣고 '나는 집에 간다 '를 순차적으로 뱉게 학습을 시킨다는 것이다. decoder에 input으로 ''를 넣어주면 output이 '나는'이 나오길 바라고 '나는'을 input으로 넣어주면 '집에'가 나오길 바란다. 그런식으로 학습을 시킨다. 하지만 이런 학습이 inference에는 어울리지 않는다는 점이다. test과정에서는 정답을 모른..

2022. 5. 16. 21:04

불균형 데이터에 효과적인 Focal loss

1. motivation single stage detector들은 ROI pooling이 없어서 모든 영역을 고려하여 gradient를 계산(모든 영역에서 loss가 발생) 이미지 내 물체라는 것은 사실 몇개 없다 그래서 물체를 포함하는 positive sample bounding box보다 물체를 포함하지 않은 negative sample bounding box가 압도적으로 많은 경우가 빈번하다 왜 문제냐면 negative sample bounding box는 실제 물체에 대한 유용한 정보가 없는데 이게 너무 많다는 것이 비효율적 대부분의 single stage detector들이 이런 문제가 있다고 보면 됨 2. focal loss cross entropy인 $-log(p_{t})$의 확장형으로 $..