Loading...
2024. 3. 20. 03:07

질문과 관련있는 지문을 찾는 Maximum Inner Product Search

1. Motivation dense embedding을 이용한 retrieve의 원리는 굉장히 간단한데 passage를 미리 embedding해놓고 question이 들어오면 embedding을 한 뒤 미리 embedding한 passage들과 similarity score를 전부 계산한 다음 가장 높은 score를 가진 passage를 출력 similarity score는 nearest neighbor에서 distance가 가까울수록 높은 점수를 부여하는 방식을 생각해볼 수 있고 inner product가 높을수록 높은 점수를 부여하는 방식을 생각해볼 수 있다. 사람이 이해하기에 nearest search가 위치 거리측면에서 생각하면서 이해하기 쉽다 근데 학습이나 효율성측면에서는 nearest neig..

2024. 3. 6. 01:31

BERT와 BART 비교하면서 간단하게 알아보기(+greedy, beam, exhaustive search)

BART는 기계 독해, 기계 번역, 요약, 대화 등 sequence to sequence 문제의 pre training을 위한 denoising autoencoder 1. BERT와 BART BERT는 transformer의 encoder만 활용했음 각 단어의 encoder embedding을 가져와 embedding을 수치화시킨 뒤 정답의 시작과 끝의 위치를 알아맞추는 extraction에 어울림 BART는 transformer의 encoder와 decoder가 모두 존재하여 encoder에서 input의 encoding을 수행한 뒤 encoding을 바탕으로 decoder에서 decoding을 통해 실제 text를 generation할 수 있어서 generation based MRC의 기본 모델로 사..

2024. 3. 5. 02:26

generation based MRC 모델링 방법 간단하게 알아보기

1. MRC문제를 푸는 방법이란 지문과 관련된 질문을 받고 답을 내는 방법은 지문 내에 명시적으로 존재하는 답의 위치를 반환하는 extraction based MRC 지문 내 token에 대한 embedding을 가져와 이것이 정답의 시작점인지 아닌지, 끝점인지 아닌지 token classification 문제로 변환 또 하나의 방법은 지문 내 답의 위치를 말하는 것이 아니라 답변 text를 생성하는 방법이 있다 이 문제가 조금 더 어려운 이유는 실제로 지문 내에 정답이 있을수도 있고 없을수도 있다는 점. 그럼에도 불구하고 주어진 질문에 주관식으로 기술하듯이 정답 text를 생성해야하는 점 정답이 존재하더라도 정답의 위치를 파악하는 것이 아니라 모델이 해당 정답을 생성하도록 유도하는 것이고 실제로 생성한..

2024. 3. 4. 00:33

extraction based MRC 모델링 방법, 필수 용어 간단하게 알아보기

1. 정의 질문의 답변이 항상 주어진 지문 내 span으로 존재하는 경우 SQuAD, KorQuAD, NewsQA, Natural Questions 이런 가정을 할 수 있다면 정답 text를 생성하는 문제가 아니라 지문 내 정답 text의 위치를 찾는 문제로 바뀌어 편리해진다 2. dataset 각각의 데이터셋을 제작한 웹사이트에서 다운 받을 수도 있지만 편리성을 위해 HuggingFace 웹사이트에서 다운 받기도 가능 HuggingFace는 다운받기도 쉬우면서 다루기도 쉬운 format으로 되어 있음 3. 평가방법 1) Exact Match prediction과 ground truth가 정확하게 character level로 일치하는 경우만 1점 단 하나라도 틀리면 0점 2) F1 score 예측값과 ..

2024. 3. 3. 23:57

KorQuAD 데이터셋에 대한 개요

1. introduction 영어 MRC의 대표적인 dataset은 SQuAD가 있는데 KorQuAD는 LG CNS에서 개발한 데이터셋으로 이와 비슷하게 구성함 그래서 영어에서 쓰이는 모델을 그대로 가져와서 한국어에도 쓸 수 있게 도와준 데이터셋 LG CNS가 AI 언어지능 연구를 위해 공개한 질의응답/기계독해 한국어 데이터셋으로 인공지능이 한국어 질문에 대한 답변을 하도록 필요한 학습 데이터셋 1550개 위키피디아 문서에 대해 하위 10649건 문서들과 크라우드 소싱으로 만든 63952개의 질의응답 쌍으로 구성 train 60407, val 5774, test 3898 3등분으로 나뉨 라이센스가 자유로워 누구나 데이터를 내려받고, 학습한 모델을 제출하고 공개된 리더보드에 평가를 받을 수 있음 객관적인 ..

2024. 3. 3. 01:54

subword tokenizing, byte pair encoding 간단하게 알아보기

1. tokenizing 긴 text가 들어왔을 때 token단위로 text를 나누는 기술 가장 simple하게는 띄어쓰기 단위로 나누는 방법이 있는데 요즘에는 비효율적이라는 인식이 많다 띄어쓰기에서 더 나아가 형태소나 subword 형태로 tokenizing하는 경우가 많아 2. subword tokenizing 자주 쓰이는 글자 조합은 한단어로 취급하고 그렇지 않은 조합은 subword로 더욱 쪼갠다 ‘아버지 가방에 들어가신다’를 만약 띄어쓰기 기준으로 tokenizing을 하면 ‘아버지’, ‘가방에’, ‘들어가신다’인데 단어가 너무 커져 단어끼리 비교가 어렵대 그래서 조금 더 잘게 잘라서 하나의 단어를 1번 더 들어가 자르는 subword tokenizing을 함 ‘아버지’, ‘가’, ‘##방’, ..