Loading...
2023. 7. 5. 23:42

word embedding을 하는 또 다른 모델 Glove의 아이디어

1. Glove 입력단어,출력단어가 한 윈도우 내에 동시에 얼마나 나왔는지를 계산하는 co-occurrence matrix를 고려하여 동일한 단어쌍을 반복적으로 학습하는 일을 피하고자했다. 두 벡터의 내적에 이러한 co-occurrence matrix를 고려한 점을 loss function으로 나타내었다. 학습이 Word2Vec보다 빠르고 작은 단어뭉치에도 효과적이라고 알려져있다. Word2Vec은 특정한 입출력 단어 쌍이 자주 등장하는 경우 그들이 자연스럽게 여러번 내적되어 비례하여 유사도가 커지는데 Glove는 중복되는 단어쌍을 미리 계산하여 벌점화하여 중복계산을 줄여 학습이 빠르다는 것이다. 아무튼 두 모델 모두 단어의 embedding vector를 구한다. 성능도 꽤 비슷한것 같다 잘 나온건 W..

2022. 2. 4. 21:52

naive bayes classifier의 문제점을 보완하는 Laplace smoothing

1. naive bayes classifier의 문제점 만약 test sentence d내에 존재하는 특정 단어 $w_{i}$가 train data에서 특정 class C=c내에 1번도 존재하지 않으면 $P(w_{i}|c)$는 0이므로 test의 sentence d는 다른 단어의 조건부확률과 무관하게 무조건 P(c|d)=0이다. 다른 단어는 다 존재하지만 단 하나의 단어만이라도 이런 경우가 발생하면 무조건 예측확률이 0이라는 사실이 굉장히 억울한 부분이다. 2. laplace smoothing 특정 class C=c에 test내 특정 단어 $w_{i}$가 속할 조건부확률을 laplace smoothing을 이용하여 구하면 그러니까 원래 구하는 식에 smoothing 상수 k를 더해준 것 상수 k는 확률에..