Loading...
2022. 2. 15. 18:54

Word2Vec의 2가지 형태 - CBOW와 skip-gram 모델

1. CBOW(continuous bag of words) Word2Vec의 첫번째 방법으로 주변의 단어를 가지고 중심단어를 예측하는 과정이다. ‘I am going to school’이라는 문장에서 window size=2라면 중심단어는 going이고 주변단어는 I,am, to, school CBOW는 주변단어를 모두 써서 중심단어 하나를 예측하는 것 CBOW의 중간에 SUM과정이 있는데 input vector들의 평균을 구하는 과정으로 skip gram과 차이점이다. 근데 논문에서 처음 제시한 모형은 sum을 구하는 것이라고 한다. 그런데 큰 차이는 없는것같다. 그냥 sum보다 평균이 안정적인 느낌이라 변했다고 생각이 든다 -------------------------------------------..

2022. 1. 25. 16:45

bag of word - 왜 단어는 숫자 벡터로 표현해야할까? -

1. 왜 단어는 숫자 벡터로 표현해야할까 대부분의 딥러닝 기술들이 수치형태의 입출력을 다룬다. 그래서 언어 그 자체를 수치로 변환하지 않고서는 딥러닝 모델에 넣을 수가 없다 2. word embedding 단어를 벡터공간 상의 한 점으로 나타내는 과정 자연어 처리에 이런 딥러닝 기술들을 적용하기 위해서는 text를 단어 단위로 분리하고 각 단어를 특정 차원으로 이루어진 수치 벡터로 표현하는 embedding 과정을 거친다. 3. bag of words 딥러닝 이전에 자연어 처리에 적용되던 단어를 숫자로 나타내는 간단한 기술 1. 주어진 언어 데이터에서 유일한 단어를 모아 사전으로 구축 ‘john really really loves this movie’ ‘jane really likes this song’..