1. MRC와 ODQA는 무슨차이인가 MRC는 문서가 주어지고 그에 대한 질문이 함께 주어지면 모델이 문서를 읽고 질문에 대한 답을 내는 방식 ODQA는 문서가 주어지지 않았는데 질문이 주어지면 질문과 관련된 문서를 찾고 그 문서로부터 모델이 질문에 대한 답을 내는 방식 2. open domain vs. open book vs. closed book open domain은 질문이 주어질 때 관련된 문서를 찾아 읽고 질문에 답을 내는 task 자체를 나타냄 open book은 질문을 던졌을 때 모델이 질문에 답하기 위해 ‘책’이라고 할 수 있는 거대한 corpus를 접근하게 하는것 closed book은 corpus없이 질문을 받으면 모델이 가지고 있는 사전지식만을 활용하여 정답을 냄 3. core ide..
BART는 기계 독해, 기계 번역, 요약, 대화 등 sequence to sequence 문제의 pre training을 위한 denoising autoencoder 1. BERT와 BART BERT는 transformer의 encoder만 활용했음 각 단어의 encoder embedding을 가져와 embedding을 수치화시킨 뒤 정답의 시작과 끝의 위치를 알아맞추는 extraction에 어울림 BART는 transformer의 encoder와 decoder가 모두 존재하여 encoder에서 input의 encoding을 수행한 뒤 encoding을 바탕으로 decoder에서 decoding을 통해 실제 text를 generation할 수 있어서 generation based MRC의 기본 모델로 사..
1. 정의 질문의 답변이 항상 주어진 지문 내 span으로 존재하는 경우 SQuAD, KorQuAD, NewsQA, Natural Questions 이런 가정을 할 수 있다면 정답 text를 생성하는 문제가 아니라 지문 내 정답 text의 위치를 찾는 문제로 바뀌어 편리해진다 2. dataset 각각의 데이터셋을 제작한 웹사이트에서 다운 받을 수도 있지만 편리성을 위해 HuggingFace 웹사이트에서 다운 받기도 가능 HuggingFace는 다운받기도 쉬우면서 다루기도 쉬운 format으로 되어 있음 3. 평가방법 1) Exact Match prediction과 ground truth가 정확하게 character level로 일치하는 경우만 1점 단 하나라도 틀리면 0점 2) F1 score 예측값과 ..
1. tokenizing 긴 text가 들어왔을 때 token단위로 text를 나누는 기술 가장 simple하게는 띄어쓰기 단위로 나누는 방법이 있는데 요즘에는 비효율적이라는 인식이 많다 띄어쓰기에서 더 나아가 형태소나 subword 형태로 tokenizing하는 경우가 많아 2. subword tokenizing 자주 쓰이는 글자 조합은 한단어로 취급하고 그렇지 않은 조합은 subword로 더욱 쪼갠다 ‘아버지 가방에 들어가신다’를 만약 띄어쓰기 기준으로 tokenizing을 하면 ‘아버지’, ‘가방에’, ‘들어가신다’인데 단어가 너무 커져 단어끼리 비교가 어렵대 그래서 조금 더 잘게 잘라서 하나의 단어를 1번 더 들어가 자르는 subword tokenizing을 함 ‘아버지’, ‘가’, ‘##방’, ..
1. ChatGPT의 빛과 어둠 1) 마이크로소프트 빌게이츠 "ChatGPT는 인터넷, PC정도로 중요한 발견이다" 2) 만들어진지 5일만에 100만 유저 달성 3) 이탈리아, ChatGPT의 개인정보 유출문제로 차단 4) 일론머스크, "멈출 수 없는 AI 레이스를 6개월만 쉬어가자" 5) 구글에 "ChatGPT"가 무엇인지 검색하면, 너무 많은 검색 결과를 주지만 ChatGPT한테 물어보면 검색 + 요약 + 설명을 깔끔하게 한번에 해 6) 하지만 아주 간단한 설명도 틀리게 말하는 경우가 많다 2. ChatGPT 이전의 시대 1) RNN - 자연어 처리 모델의 시초 1997년 개발 이후 2010년대까지 꾸준히 사용 한번에 한 단어만 모델에 넣을 수 있어서 병렬화가 불가능하여 학습시간이 매우 오래걸린다는 ..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.