Loading...
2022. 6. 28. 01:58

NLP의 최신 트렌드 - GPT-1 파헤치기

1. NLP의 최신 트렌드 transformer와 self-attention block은 NLP분야에서 범용적인 encoder,decoder로 역할을 수행하며 좋은 성능을 보였다. 처음 제안된 transformer의 self-attention block은 6개였는데 이제는 12개,24개,... 그 이상으로 더욱 쌓아올려 model을 구성한다. 이렇게 쌓은 모델을 self-supervised learning라는 framework하에 대규모의 train data로 pre-train하여 다양한 NLP task등에 transfer learning로 fine-tuning하는 형태로 활용하는 거대한 모형 BERT,GPT,ELECTRA,ALBERT 등이 등장했다. 이런 거대한 모형의 self-supervised le..

2022. 6. 2. 00:46

확률분포&연속형분포의 이산화&조건부분포&기댓값으로 구하는 통계량

1. 확률분포 $x \times y$라는 데이터 공간에서 D는 데이터를 만들어내는 하나의 확률분포이다. 이로부터 얻어낸 데이터는 하나의 확률변수로 $(x,y) \sim D$이다. 확률분포에 따라 데이터의 이산형, 연속형이 결정된다. 데이터 상태가 실수이냐 정수이냐랑은 크게 무관하다. 확률분포는 이론적으로 존재하며 단순히 데이터만 보고는 무슨 확률분포를 따르는지는 알 수 없다. -------------------------------------- 확률질량함수는 이산형확률변수의 확률함수로 그 값 자체가 확률이다. 확률변수가 공간 A에서 가질 수 있는 모든 경우의 수를 고려한 확률의 합으로 구해진다. ------------------------------------- 확률밀도함수는 연속형확률변수의 확률함수지만..

2022. 6. 1. 01:51

딥러닝의 핵심요소

1. deep learning의 기본 인공지능을 단순하게 정의하면 ‘사람의 지능을 모방하는 것’ 딥러닝이 인공지능의 모든 것은 아니다. 2. 딥러닝의 핵심요소 모델이 배워야할 data, 데이터를 어떻게 변형시킬지 model, 모델의 나쁜 정도를 측정하는 loss function, loss를 최소화하는 parameter를 추정하는 알고리즘(optimizer) 4가지만 논문에서 정확히 보더라도 해당 논문의 거의 대부분을 이해할 수 있는 수준 2-1) data 데이터(data)는 풀고자하는 문제에 따라 다르다 semantic segmentation > 이미지의 픽셀이 어느 class에 속할지 pose estimation > 이미지의 스켈레톤(동작)을 추정함 visual QnA > 시각이미지를 보고 질문에 대한..

2022. 5. 26. 21:51

in batch negative를 이용한 dense embedding encoder modeling

1. in batch negatives 두 encoder BERTp와 BERTq는 어떻게 training을 할까? query와 연관된 passage인 ground truth passage와는 최대한 거리가 가깝도록 embedding을 함 nearest neighbor의 L2 distance를 좁힐 수 있지만 강의에서는 inner product를 최대화 시킴 (question,passage) pair dataset은 어디서 구하냐고? 기존 MRC dataset인 KorQuAD, SQuAD 등 활용 기존 MRC dataset을 활용하면 하나의 query에 대해 정답인 passage와 정답이 아닌 passage가 있다 전자인 정답 passage를 positive sample, 정답이 아닌 passage는 ne..

2022. 5. 26. 21:38

dense embedding encoder modeling -개요와 학습방법-

1. overview 가지고 있는 passage를 BERTp라는 encoder에 넣어 hp라는 passage embedding을 가지고 있는 모든 passage에 대해 얻음 query는 BERTp와는 parameter가 다른 BERTq라는 encoder에 넣어 question embedding hq를 얻는다. 여기서 중요한 점은 hp와 hq는 size가 같아야한다. inner product score를 구하려면.. passage embedding과 query embedding을 얻으면 유사도를 계산할 수 있다. 일반적인 방식은 dot product로 유사도에 대한 scalar value를 얻는다. 질문은 하나고, passage는 여러개니까 하나의 질문 embedding인 hq에 대해 모든 hp와의 유사도..

2022. 5. 24. 02:50

dense embedding과 sparse embedding 비교

1. passage embedding 하나의 단락 passage를 embedding으로 변환하는 것 주어진 단락이 가지는 뜻을 담는 숫자를 가지는 벡터에 mapping하는 것이 목표 passage embedding은 문서를 벡터로 변환하는 것이다. 2. sparse embedding TF-IDF같은 embedding은 벡터 크기가 매우 크지만 0인 숫자가 대부분인 sparse vector이다. 기반이 bag of words로 vocab의 특정 단어가 문서에 있는 경우만 nonzero가 되므로 거의 대부분 90%이상의 원소가 0인 경우가 종종 발생함 차원 수가 매우 큰 경우가 대부분인데 compressed format으로 어느 정도는 극복 가능함 예를 들어 nonzero 위치와 그 값만 저장하여 공간을 절..