Loading...
2022. 10. 24. 17:10

현대 NLP 모델의 근간이 되는 BERT의 기본적인 특징

1. pre-trained model은 왜 의미있을까? pre-training과정에서 수행한 up-stream task의 data는 별도의 label이 필요하지 않은 데이터라는 것이 하나의 강점이다. ------------------------------------------------------------------------------------------------------------------------------- 다음 단어를 맞추는 것이 label이 없다고? GPT-1이 수행한 다음 단어를 예측하는 pre-training task는 input sequence와 output sequence가 동일한 task이다. 쉽게 말해 input sequence를 차례대로 읽어들여 input sequenc..

2022. 5. 26. 21:38

dense embedding encoder modeling -개요와 학습방법-

1. overview 가지고 있는 passage를 BERTp라는 encoder에 넣어 hp라는 passage embedding을 가지고 있는 모든 passage에 대해 얻음 query는 BERTp와는 parameter가 다른 BERTq라는 encoder에 넣어 question embedding hq를 얻는다. 여기서 중요한 점은 hp와 hq는 size가 같아야한다. inner product score를 구하려면.. passage embedding과 query embedding을 얻으면 유사도를 계산할 수 있다. 일반적인 방식은 dot product로 유사도에 대한 scalar value를 얻는다. 질문은 하나고, passage는 여러개니까 하나의 질문 embedding인 hq에 대해 모든 hp와의 유사도..

2022. 2. 5. 21:21

시대를 뒤흔든 딥러닝의 아이디어들

1. 2012 AlexNet AlexNet 이전에는 고전적인 svm 등이 대회에서 1등을 했으나 AlexNet 이후 딥러닝 모델이 대회 1등을 놓친 적이 없다 224*224 이미지를 분류하는 CNN 왜 잘되는지 모르겠지만 인간을 모방한다니까 잘될 것 같다던 막연한 믿음의 유망주 딥러닝이 실제 성능을 발휘한 계기 2. 2013 DQN 딥마인드가 처음 개발한 알고리즘 그림에서 보이는 아타리 게임을 인간 수준으로 플레이할 수 있는 강화학습 알고리즘 아무것도 알려주지 않고 마음대로 플레이하게 놔두면, 처음엔 버벅거리다가 점점 스스로 게임을 이해하여 공략법을 익히고 실제로는 고수의 플레이를 보여준다 이후 딥마인드는 구글에 인수되어 알파고를 개발하였다 3. 2014 encoder/decoder 언어를 번역하는 아이..