Word2Vec의 sliding window 완벽하게 이해하기
중심단어 기준으로 몇개의 단어를 볼지 그 범위를 window라고 한다. 왜 헷갈리기 시작했냐면 중심단어가 무조건 하나만 있다고 생각이 고정되어버리는 거임 예측하고자 하는 중심단어는 선택할 수가 있다. 무슨말이냐면 "The fat cat sat on the mat" 이 문장이 입력으로 주어졌다고 생각해보자. 근데 이제 그냥 중심단어를 무조건 sat이라 하고 window size=3이라 해서 나머지 {"The", "fat", "cat", "on", "the", "mat"}가 주변단어라고 해버리니까 생각이 멈춰버리는거임.. 모델이 embedding vector를 구하는게 목적이라고 생각한다면 모든 단어에 대해서 embedding vector를 구해야할거 아니냐 그러니까 모든 단어가 중심단어가 될 수 있다는 것..