Loading...
2024. 3. 2. 01:32

Machine reading comprehension metric 종류

모든 모델은 만들고나서 성능을 정확하게 평가하는 것이 중요함 1. exact match question에 대한 model이 prediction하여 내놓은 answer과 실제 dataset의 answer로 주어진 ground truth를 character level에서 비교하여 모든 character이 정확하게 일치할경우 1점을 주고 단 하나라도 일치하지 않으면 0점을 줌 모든 sample에 대해서 exact match score를 계산하여 정확히 일치한, 1점인 비율을 계산한 값이 exact match 예를 들어 prediction이 'for 5 days'와 ground truth '5 days'를 비교해보면 for이라는 글자가 일치하지 않으니 EM score=0 2. precision predictio..

2024. 3. 2. 00:07

Machine reading comprehension에서 어려운 점

1. paraphrasing 단어들 구성이 동일하진 않지만 동일한 의미의 문장을 이해해야함 위에서 재미있는 부분은 P1과 P2 둘다 question에 대한 답을 가지고 있기는 한데 모델 입장에서는 P1을 이해하기 쉬워함 왜냐하면 question에 존재하는 selected와 mission이 직접적으로 P1에 존재해서 그럼 그러나 P2는 question에 존재하는 단어들과 직접적으로 matching되는 단어들이 존재하지 않음 다른 단어로 paraphrasing하면서 생기는 부분을 model이 이해하기 어려워함 2. coreference resolution coreference란 그 사람, 그것같이 물건이나 사람 존재를 지칭하는 “참조”를 의미함 실제로 coreference같은 지시대명사가 나오면 그것이 무엇..

2024. 3. 1. 02:29

Machine reading comprehension 개요

1. Machine reading comprehension이란? 지문이 주어지고 주어진 지문을 이해하여 주어진 질의에 대한 답변을 추론하는 문제 서울 특별시에 대한 지문 context가 주어질 때 이 문서에 대한 질문으로 question ‘서울의 GDP는 세계 몇위인지?’ context와 question을 input으로 받아 machine이 이해하여 최종적으로 answer로 ‘세계 4위’라고 내놓는게 목표 1-1) 검색 엔진에서 MRC? 보통 검색 엔진에는 지문을 따로 주지 않아도 질문만 던지면 알아서 답을 내놓던데 어떻게 가능할까? 질문이 들어오면 search engine에서 질문과 관련된 지문을 찾음 관련 지문을 찾으면 이로부터 질문에 대한 답변을 찾아 내놓음 구글이나 네이버에서 질문을 던지면 답을 ..

2022. 5. 26. 21:51

in batch negative를 이용한 dense embedding encoder modeling

1. in batch negatives 두 encoder BERTp와 BERTq는 어떻게 training을 할까? query와 연관된 passage인 ground truth passage와는 최대한 거리가 가깝도록 embedding을 함 nearest neighbor의 L2 distance를 좁힐 수 있지만 강의에서는 inner product를 최대화 시킴 (question,passage) pair dataset은 어디서 구하냐고? 기존 MRC dataset인 KorQuAD, SQuAD 등 활용 기존 MRC dataset을 활용하면 하나의 query에 대해 정답인 passage와 정답이 아닌 passage가 있다 전자인 정답 passage를 positive sample, 정답이 아닌 passage는 ne..

2022. 5. 26. 21:38

dense embedding encoder modeling -개요와 학습방법-

1. overview 가지고 있는 passage를 BERTp라는 encoder에 넣어 hp라는 passage embedding을 가지고 있는 모든 passage에 대해 얻음 query는 BERTp와는 parameter가 다른 BERTq라는 encoder에 넣어 question embedding hq를 얻는다. 여기서 중요한 점은 hp와 hq는 size가 같아야한다. inner product score를 구하려면.. passage embedding과 query embedding을 얻으면 유사도를 계산할 수 있다. 일반적인 방식은 dot product로 유사도에 대한 scalar value를 얻는다. 질문은 하나고, passage는 여러개니까 하나의 질문 embedding인 hq에 대해 모든 hp와의 유사도..

2022. 5. 24. 02:50

dense embedding과 sparse embedding 비교

1. passage embedding 하나의 단락 passage를 embedding으로 변환하는 것 주어진 단락이 가지는 뜻을 담는 숫자를 가지는 벡터에 mapping하는 것이 목표 passage embedding은 문서를 벡터로 변환하는 것이다. 2. sparse embedding TF-IDF같은 embedding은 벡터 크기가 매우 크지만 0인 숫자가 대부분인 sparse vector이다. 기반이 bag of words로 vocab의 특정 단어가 문서에 있는 경우만 nonzero가 되므로 거의 대부분 90%이상의 원소가 0인 경우가 종종 발생함 차원 수가 매우 큰 경우가 대부분인데 compressed format으로 어느 정도는 극복 가능함 예를 들어 nonzero 위치와 그 값만 저장하여 공간을 절..