Loading...
2024. 3. 4. 00:33

extraction based MRC 모델링 방법, 필수 용어 간단하게 알아보기

1. 정의 질문의 답변이 항상 주어진 지문 내 span으로 존재하는 경우 SQuAD, KorQuAD, NewsQA, Natural Questions 이런 가정을 할 수 있다면 정답 text를 생성하는 문제가 아니라 지문 내 정답 text의 위치를 찾는 문제로 바뀌어 편리해진다 2. dataset 각각의 데이터셋을 제작한 웹사이트에서 다운 받을 수도 있지만 편리성을 위해 HuggingFace 웹사이트에서 다운 받기도 가능 HuggingFace는 다운받기도 쉬우면서 다루기도 쉬운 format으로 되어 있음 3. 평가방법 1) Exact Match prediction과 ground truth가 정확하게 character level로 일치하는 경우만 1점 단 하나라도 틀리면 0점 2) F1 score 예측값과 ..

2024. 3. 3. 23:57

KorQuAD 데이터셋에 대한 개요

1. introduction 영어 MRC의 대표적인 dataset은 SQuAD가 있는데 KorQuAD는 LG CNS에서 개발한 데이터셋으로 이와 비슷하게 구성함 그래서 영어에서 쓰이는 모델을 그대로 가져와서 한국어에도 쓸 수 있게 도와준 데이터셋 LG CNS가 AI 언어지능 연구를 위해 공개한 질의응답/기계독해 한국어 데이터셋으로 인공지능이 한국어 질문에 대한 답변을 하도록 필요한 학습 데이터셋 1550개 위키피디아 문서에 대해 하위 10649건 문서들과 크라우드 소싱으로 만든 63952개의 질의응답 쌍으로 구성 train 60407, val 5774, test 3898 3등분으로 나뉨 라이센스가 자유로워 누구나 데이터를 내려받고, 학습한 모델을 제출하고 공개된 리더보드에 평가를 받을 수 있음 객관적인 ..

2024. 3. 3. 01:54

subword tokenizing, byte pair encoding 간단하게 알아보기

1. tokenizing 긴 text가 들어왔을 때 token단위로 text를 나누는 기술 가장 simple하게는 띄어쓰기 단위로 나누는 방법이 있는데 요즘에는 비효율적이라는 인식이 많다 띄어쓰기에서 더 나아가 형태소나 subword 형태로 tokenizing하는 경우가 많아 2. subword tokenizing 자주 쓰이는 글자 조합은 한단어로 취급하고 그렇지 않은 조합은 subword로 더욱 쪼갠다 ‘아버지 가방에 들어가신다’를 만약 띄어쓰기 기준으로 tokenizing을 하면 ‘아버지’, ‘가방에’, ‘들어가신다’인데 단어가 너무 커져 단어끼리 비교가 어렵대 그래서 조금 더 잘게 잘라서 하나의 단어를 1번 더 들어가 자르는 subword tokenizing을 함 ‘아버지’, ‘가’, ‘##방’, ..

2024. 3. 2. 01:32

Machine reading comprehension metric 종류

모든 모델은 만들고나서 성능을 정확하게 평가하는 것이 중요함 1. exact match question에 대한 model이 prediction하여 내놓은 answer과 실제 dataset의 answer로 주어진 ground truth를 character level에서 비교하여 모든 character이 정확하게 일치할경우 1점을 주고 단 하나라도 일치하지 않으면 0점을 줌 모든 sample에 대해서 exact match score를 계산하여 정확히 일치한, 1점인 비율을 계산한 값이 exact match 예를 들어 prediction이 'for 5 days'와 ground truth '5 days'를 비교해보면 for이라는 글자가 일치하지 않으니 EM score=0 2. precision predictio..

2024. 3. 2. 00:07

Machine reading comprehension에서 어려운 점

1. paraphrasing 단어들 구성이 동일하진 않지만 동일한 의미의 문장을 이해해야함 위에서 재미있는 부분은 P1과 P2 둘다 question에 대한 답을 가지고 있기는 한데 모델 입장에서는 P1을 이해하기 쉬워함 왜냐하면 question에 존재하는 selected와 mission이 직접적으로 P1에 존재해서 그럼 그러나 P2는 question에 존재하는 단어들과 직접적으로 matching되는 단어들이 존재하지 않음 다른 단어로 paraphrasing하면서 생기는 부분을 model이 이해하기 어려워함 2. coreference resolution coreference란 그 사람, 그것같이 물건이나 사람 존재를 지칭하는 “참조”를 의미함 실제로 coreference같은 지시대명사가 나오면 그것이 무엇..

2024. 3. 1. 02:29

Machine reading comprehension 개요

1. Machine reading comprehension이란? 지문이 주어지고 주어진 지문을 이해하여 주어진 질의에 대한 답변을 추론하는 문제 서울 특별시에 대한 지문 context가 주어질 때 이 문서에 대한 질문으로 question ‘서울의 GDP는 세계 몇위인지?’ context와 question을 input으로 받아 machine이 이해하여 최종적으로 answer로 ‘세계 4위’라고 내놓는게 목표 1-1) 검색 엔진에서 MRC? 보통 검색 엔진에는 지문을 따로 주지 않아도 질문만 던지면 알아서 답을 내놓던데 어떻게 가능할까? 질문이 들어오면 search engine에서 질문과 관련된 지문을 찾음 관련 지문을 찾으면 이로부터 질문에 대한 답변을 찾아 내놓음 구글이나 네이버에서 질문을 던지면 답을 ..