Passage retrieval modeling

1. introduction

질문이 주어지면 관련된 문서를 데이터베이스에서 찾아서 내놓는 것이다.

데이터베이스 자체는 다양할 수 있다.

구조화된 데이터베이스나 위키피디아 같은 일반적인 웹이 모여있는 문서

위키피디아에 토트넘을 검색하면 관련된 문서가 나오는 과정을 도식화

그동안 MRC는 지문이 주어진다고 가정하고 그에 대한 질문으로 모델이 만들어졌다고 가정한다

즉 질문은 무언가가 있어야 답이 가능하다. 무언가에 해당하는 지문이 주어져야 MRC 모델을 만들 수 있다는 말

바꿔말하면 질문에 맞는 지문을 주는 모델이 있어야 MRC 모델이 의미가 있다

만약 MRC와 passage retrieval을 연결할 수 있다면? Open Domain Question Answering 모델을 만들 수 있다

질문을 passage retrieval model에 주면 질문에 관련된, 질문에 포함할 법한 지문을 데이터 베이스에서 찾아준다.

이렇게 찾아준 지문을 MRC 모델이 질문과 함께 읽어보며 답을 내놓는 2-stage model이 대회 주제인 open domain question answering이다.

passage retrieval은 지문을 어떻게 찾느냐? embedding space에서 검색하는 것이다.

질문이 들어오면 동일한 vector space에 질문과 지문을 embedding함.

여기서 지문은 질문이 들어올때마다 embedding하는 것이 아니라 미리 embedding하여 효율성을 도모함

그러면 들어온 질문에 대해 embedding을 한 후 질문 embedding vector와 지문 embedding vector에 대해 similarity score를 계산함

similarity score를 계산하는 방법에는 여러가지가 있는데 nearest neighbor 알고리즘은 고차원 space에서 벡터간 거리를 구하고

inner product를 이용한다면 두 벡터의 dot product로 가장 높은 score를 내는 지문 vector를 찾는다

무슨 방법을 쓰든 score에 대한 ranking을 산출한 뒤 가장 높은 score를 받은 지문을 출력한다

728x90

in batch negative를 이용한 dense embedding encoder modeling (0)	2022.05.26
dense embedding encoder modeling -개요와 학습방법- (0)	2022.05.26
dense embedding과 sparse embedding 비교 (0)	2022.05.24
TF-IDF(term frequency - inverse document frequency) 기본 맛보기 (0)	2022.05.20
Sparse embedding (0)	2022.05.19