TF-IDF(term frequency - inverse document frequency) 기본 맛보기

1. introduction 특정한 term의 등장빈도를 보면서 그 term이 제공하는 정보량까지 고려하겠다는 방법 단어가 제공하는 정보량은 사건이 희귀하게 발생하면 그 사건에 담긴 정보량은 많다는 것을 상기해보면 문서에서 덜 등장할수록 해당 단어가 주는 정보량이 많다는 것 2. term frequency 특정 단어가 해당 문서에 몇번 나오는지 빈도수를 계산하는 것 bag of words는 해당 문서에 몇번 나오든 관계없이 나오기만 하면 1, 없으면 0을 부여함 반면 term frequency관점에서는 여러번 등장하면 등장하는 만큼의 빈도수를 부여함 보통은 문서 내 총 단어수로 나눈 normalize 빈도수를 사용하여 0과 1사이의 값으로 나타내며 총 합은 1 이하가 되도록 만든다 3. Inverse d..