Loading...
2024. 3. 20. 03:07

질문과 관련있는 지문을 찾는 Maximum Inner Product Search

1. Motivation dense embedding을 이용한 retrieve의 원리는 굉장히 간단한데 passage를 미리 embedding해놓고 question이 들어오면 embedding을 한 뒤 미리 embedding한 passage들과 similarity score를 전부 계산한 다음 가장 높은 score를 가진 passage를 출력 similarity score는 nearest neighbor에서 distance가 가까울수록 높은 점수를 부여하는 방식을 생각해볼 수 있고 inner product가 높을수록 높은 점수를 부여하는 방식을 생각해볼 수 있다. 사람이 이해하기에 nearest search가 위치 거리측면에서 생각하면서 이해하기 쉽다 근데 학습이나 효율성측면에서는 nearest neig..

2024. 3. 5. 02:26

generation based MRC 모델링 방법 간단하게 알아보기

1. MRC문제를 푸는 방법이란 지문과 관련된 질문을 받고 답을 내는 방법은 지문 내에 명시적으로 존재하는 답의 위치를 반환하는 extraction based MRC 지문 내 token에 대한 embedding을 가져와 이것이 정답의 시작점인지 아닌지, 끝점인지 아닌지 token classification 문제로 변환 또 하나의 방법은 지문 내 답의 위치를 말하는 것이 아니라 답변 text를 생성하는 방법이 있다 이 문제가 조금 더 어려운 이유는 실제로 지문 내에 정답이 있을수도 있고 없을수도 있다는 점. 그럼에도 불구하고 주어진 질문에 주관식으로 기술하듯이 정답 text를 생성해야하는 점 정답이 존재하더라도 정답의 위치를 파악하는 것이 아니라 모델이 해당 정답을 생성하도록 유도하는 것이고 실제로 생성한..

2024. 3. 4. 00:33

extraction based MRC 모델링 방법, 필수 용어 간단하게 알아보기

1. 정의 질문의 답변이 항상 주어진 지문 내 span으로 존재하는 경우 SQuAD, KorQuAD, NewsQA, Natural Questions 이런 가정을 할 수 있다면 정답 text를 생성하는 문제가 아니라 지문 내 정답 text의 위치를 찾는 문제로 바뀌어 편리해진다 2. dataset 각각의 데이터셋을 제작한 웹사이트에서 다운 받을 수도 있지만 편리성을 위해 HuggingFace 웹사이트에서 다운 받기도 가능 HuggingFace는 다운받기도 쉬우면서 다루기도 쉬운 format으로 되어 있음 3. 평가방법 1) Exact Match prediction과 ground truth가 정확하게 character level로 일치하는 경우만 1점 단 하나라도 틀리면 0점 2) F1 score 예측값과 ..

2024. 3. 3. 23:57

KorQuAD 데이터셋에 대한 개요

1. introduction 영어 MRC의 대표적인 dataset은 SQuAD가 있는데 KorQuAD는 LG CNS에서 개발한 데이터셋으로 이와 비슷하게 구성함 그래서 영어에서 쓰이는 모델을 그대로 가져와서 한국어에도 쓸 수 있게 도와준 데이터셋 LG CNS가 AI 언어지능 연구를 위해 공개한 질의응답/기계독해 한국어 데이터셋으로 인공지능이 한국어 질문에 대한 답변을 하도록 필요한 학습 데이터셋 1550개 위키피디아 문서에 대해 하위 10649건 문서들과 크라우드 소싱으로 만든 63952개의 질의응답 쌍으로 구성 train 60407, val 5774, test 3898 3등분으로 나뉨 라이센스가 자유로워 누구나 데이터를 내려받고, 학습한 모델을 제출하고 공개된 리더보드에 평가를 받을 수 있음 객관적인 ..

2024. 3. 2. 01:32

Machine reading comprehension metric 종류

모든 모델은 만들고나서 성능을 정확하게 평가하는 것이 중요함 1. exact match question에 대한 model이 prediction하여 내놓은 answer과 실제 dataset의 answer로 주어진 ground truth를 character level에서 비교하여 모든 character이 정확하게 일치할경우 1점을 주고 단 하나라도 일치하지 않으면 0점을 줌 모든 sample에 대해서 exact match score를 계산하여 정확히 일치한, 1점인 비율을 계산한 값이 exact match 예를 들어 prediction이 'for 5 days'와 ground truth '5 days'를 비교해보면 for이라는 글자가 일치하지 않으니 EM score=0 2. precision predictio..

2024. 3. 2. 00:07

Machine reading comprehension에서 어려운 점

1. paraphrasing 단어들 구성이 동일하진 않지만 동일한 의미의 문장을 이해해야함 위에서 재미있는 부분은 P1과 P2 둘다 question에 대한 답을 가지고 있기는 한데 모델 입장에서는 P1을 이해하기 쉬워함 왜냐하면 question에 존재하는 selected와 mission이 직접적으로 P1에 존재해서 그럼 그러나 P2는 question에 존재하는 단어들과 직접적으로 matching되는 단어들이 존재하지 않음 다른 단어로 paraphrasing하면서 생기는 부분을 model이 이해하기 어려워함 2. coreference resolution coreference란 그 사람, 그것같이 물건이나 사람 존재를 지칭하는 “참조”를 의미함 실제로 coreference같은 지시대명사가 나오면 그것이 무엇..