Loading...
2024. 3. 20. 03:07

질문과 관련있는 지문을 찾는 Maximum Inner Product Search

1. Motivation dense embedding을 이용한 retrieve의 원리는 굉장히 간단한데 passage를 미리 embedding해놓고 question이 들어오면 embedding을 한 뒤 미리 embedding한 passage들과 similarity score를 전부 계산한 다음 가장 높은 score를 가진 passage를 출력 similarity score는 nearest neighbor에서 distance가 가까울수록 높은 점수를 부여하는 방식을 생각해볼 수 있고 inner product가 높을수록 높은 점수를 부여하는 방식을 생각해볼 수 있다. 사람이 이해하기에 nearest search가 위치 거리측면에서 생각하면서 이해하기 쉽다 근데 학습이나 효율성측면에서는 nearest neig..

2022. 5. 20. 10:29

TF-IDF(term frequency - inverse document frequency) 기본 맛보기

1. introduction 특정한 term의 등장빈도를 보면서 그 term이 제공하는 정보량까지 고려하겠다는 방법 단어가 제공하는 정보량은 사건이 희귀하게 발생하면 그 사건에 담긴 정보량은 많다는 것을 상기해보면 문서에서 덜 등장할수록 해당 단어가 주는 정보량이 많다는 것 2. term frequency 특정 단어가 해당 문서에 몇번 나오는지 빈도수를 계산하는 것 bag of words는 해당 문서에 몇번 나오든 관계없이 나오기만 하면 1, 없으면 0을 부여함 반면 term frequency관점에서는 여러번 등장하면 등장하는 만큼의 빈도수를 부여함 보통은 문서 내 총 단어수로 나눈 normalize 빈도수를 사용하여 0과 1사이의 값으로 나타내며 총 합은 1 이하가 되도록 만든다 3. Inverse d..

2022. 5. 19. 19:54

Passage retrieval modeling

1. introduction 질문이 주어지면 관련된 문서를 데이터베이스에서 찾아서 내놓는 것이다. 데이터베이스 자체는 다양할 수 있다. 구조화된 데이터베이스나 위키피디아 같은 일반적인 웹이 모여있는 문서 위키피디아에 토트넘을 검색하면 관련된 문서가 나오는 과정을 도식화 2. importance 그동안 MRC는 지문이 주어진다고 가정하고 그에 대한 질문으로 모델이 만들어졌다고 가정한다 즉 질문은 무언가가 있어야 답이 가능하다. 무언가에 해당하는 지문이 주어져야 MRC 모델을 만들 수 있다는 말 바꿔말하면 질문에 맞는 지문을 주는 모델이 있어야 MRC 모델이 의미가 있다 만약 MRC와 passage retrieval을 연결할 수 있다면? Open Domain Question Answering 모델을 만들 수..