word embedding을 하는 또 다른 모델 Glove의 아이디어

1. Glove 입력단어,출력단어가 한 윈도우 내에 동시에 얼마나 나왔는지를 계산하는 co-occurrence matrix를 고려하여 동일한 단어쌍을 반복적으로 학습하는 일을 피하고자했다. 두 벡터의 내적에 이러한 co-occurrence matrix를 고려한 점을 loss function으로 나타내었다. 학습이 Word2Vec보다 빠르고 작은 단어뭉치에도 효과적이라고 알려져있다. Word2Vec은 특정한 입출력 단어 쌍이 자주 등장하는 경우 그들이 자연스럽게 여러번 내적되어 비례하여 유사도가 커지는데 Glove는 중복되는 단어쌍을 미리 계산하여 벌점화하여 중복계산을 줄여 학습이 빠르다는 것이다. 아무튼 두 모델 모두 단어의 embedding vector를 구한다. 성능도 꽤 비슷한것 같다 잘 나온건 W..