Loading...
2024. 3. 30. 00:11

Open domain question answering에서 고민해야할 issue

1. passage의 단위? 앞에서 passage의 엄밀한 정의를 하지 않았는데 위키피디아 같은 경우도 passage를 어떻게 볼지 엄밀하게 정의하지 않았다 영어 위키피디아에서 article로 보면 500만개 정도 있고 paragraph로 보면 3000만개 정도 있고 sentence로 보면 7600만개 정도 있다고 한다 retriever가 reader한테 질문과 관련된 passage를 넘겨줄 때 몇개를 넘겨줘야 적당한가? passage를 정의한 범위에 따라서도 몇개를 넘겨줄지 고려해야함 몇개의 passage를 넘겨주느냐에 따라 모형의 성능도 다르다 위와 같이 큰 단위일수록 적게 넘겨줌 위는 article일때 k=5, paragraph는 k=29, sentence는 k=78로 그냥 설정해보고 실험한 논문 ..

2024. 3. 30. 00:00

retriever-reader 방식을 이용한 Open domain question answering 문제 접근 방법

1. motivation 가장 일반적인 ODQA의 해결방법 retriever model과 reader model을 그대로 연결하여 ODQA를 해결 retriever가 대형 문서셋 corpus와 질문을 input으로 받으면 질문과 관련성이 높은 지문 문서를 출력함 retrieve된 지문을 받은 reader는 질문과 함께 input으로 받으면 최종 답안을 출력해줌 2. training 2-1) retriever TF-IDF와 BM25활용한 embedding은 label을 통한 일반적인 training없음 self-supervise training이라는데 기본적으로 생각하는 training이라고 보기는 솔직히 좀 어렵다 dense embedding은 가지고 있는 MRC set을 이용하여 training을 통해..