Passage retrieval modeling

1. introduction

 

질문이 주어지면 관련된 문서를 데이터베이스에서 찾아서 내놓는 것이다.

 

데이터베이스 자체는 다양할 수 있다.

 

구조화된 데이터베이스나 위키피디아 같은 일반적인 웹이 모여있는 문서

 

 

위키피디아에 토트넘을 검색하면 관련된 문서가 나오는 과정을 도식화

 

 

2. importance

 

그동안 MRC는 지문이 주어진다고 가정하고 그에 대한 질문으로 모델이 만들어졌다고 가정한다

 

즉 질문은 무언가가 있어야 답이 가능하다. 무언가에 해당하는 지문이 주어져야 MRC 모델을 만들 수 있다는 말

 

바꿔말하면 질문에 맞는 지문을 주는 모델이 있어야 MRC 모델이 의미가 있다

 

만약 MRC와 passage retrieval을 연결할 수 있다면? Open Domain Question Answering 모델을 만들 수 있다

 

open domain question answering 도식화

 

질문을 passage retrieval model에 주면 질문에 관련된, 질문에 포함할 법한 지문을 데이터 베이스에서 찾아준다.

 

이렇게 찾아준 지문을 MRC 모델이 질문과 함께 읽어보며 답을 내놓는 2-stage model이 대회 주제인 open domain question answering이다.

 

 

3. modeling

 

passage retrieval은 지문을 어떻게 찾느냐? embedding space에서 검색하는 것이다.

 

질문이 들어오면 동일한 vector space에 질문과 지문을 embedding함.

 

여기서 지문은 질문이 들어올때마다 embedding하는 것이 아니라 미리 embedding하여 효율성을 도모함

 

그러면 들어온 질문에 대해 embedding을 한 후 질문 embedding vector와 지문 embedding vector에 대해 similarity score를 계산

 

passage retrieval 도식화

similarity score를 계산하는 방법에는 여러가지가 있는데 nearest neighbor 알고리즘은 고차원 space에서 벡터간 거리를 구하고

 

inner product를 이용한다면 두 벡터의 dot product로 가장 높은 score를 내는 지문 vector를 찾는다

 

무슨 방법을 쓰든 score에 대한 ranking을 산출한 뒤 가장 높은 score를 받은 지문을 출력한다  

TAGS.

Comments