Loading...
2022. 5. 20. 10:29

TF-IDF(term frequency - inverse document frequency) 기본 맛보기

1. introduction 특정한 term의 등장빈도를 보면서 그 term이 제공하는 정보량까지 고려하겠다는 방법 단어가 제공하는 정보량은 사건이 희귀하게 발생하면 그 사건에 담긴 정보량은 많다는 것을 상기해보면 문서에서 덜 등장할수록 해당 단어가 주는 정보량이 많다는 것 2. term frequency 특정 단어가 해당 문서에 몇번 나오는지 빈도수를 계산하는 것 bag of words는 해당 문서에 몇번 나오든 관계없이 나오기만 하면 1, 없으면 0을 부여함 반면 term frequency관점에서는 여러번 등장하면 등장하는 만큼의 빈도수를 부여함 보통은 문서 내 총 단어수로 나눈 normalize 빈도수를 사용하여 0과 1사이의 값으로 나타내며 총 합은 1 이하가 되도록 만든다 3. Inverse d..

2022. 5. 19. 20:19

Sparse embedding

1. embedding space 지문을 vector space에 mapping하여 하나의 vector로 나타냄 vector space는 여러 숫자들로 이루어진 포인트들이 모인 상당히 고차원의 추상적인 공간 이렇게 지문을 embedding space 위에 벡터로 나타내면 두 지문 사이 유사성을 두 벡터 사이 거리를 이용해 계산할 수 있다. 2. bag of words sparse하다는 뜻은 dense의 반댓말로 0이 아닌 숫자가 상당히 적다는 뜻 바꿔말하면 대부분이 0인 원소를 가지는 벡터가 sparse vector bag of words의 기본형은 문서에 vocab의 각 단어가 존재하면 1, 존재하지 않으면 0을 부여하여 아주 긴 벡터로 표현하는 방법 특정 단어가 존재하는지 아닌지로만 표현함 벡터의 길..

2022. 5. 19. 19:54

Passage retrieval modeling

1. introduction 질문이 주어지면 관련된 문서를 데이터베이스에서 찾아서 내놓는 것이다. 데이터베이스 자체는 다양할 수 있다. 구조화된 데이터베이스나 위키피디아 같은 일반적인 웹이 모여있는 문서 위키피디아에 토트넘을 검색하면 관련된 문서가 나오는 과정을 도식화 2. importance 그동안 MRC는 지문이 주어진다고 가정하고 그에 대한 질문으로 모델이 만들어졌다고 가정한다 즉 질문은 무언가가 있어야 답이 가능하다. 무언가에 해당하는 지문이 주어져야 MRC 모델을 만들 수 있다는 말 바꿔말하면 질문에 맞는 지문을 주는 모델이 있어야 MRC 모델이 의미가 있다 만약 MRC와 passage retrieval을 연결할 수 있다면? Open Domain Question Answering 모델을 만들 수..