Loading...
2022. 10. 29. 01:14

비전공자도 이해할 수 있는 AI지식22 -검색엔진이 우리가 원하는 문서만 보게 만들어주는 비결-

1. 읽지 않아도 두 문서가 비슷하다는 것을 알 수 있는 방법 최신 문서도, 품질이 좋은 문서도 쿼리와 상관없이 판별할 수 있어서, 페이지 랭크는 품질 지표를 사용자의 검색 여부와 상관없이 주기적으로 계산하고 미리 저장해두기도 합니다. 그러면 매번 계산하지 않아도 되기 때문에 검색 속도를 높일 수 있죠. 이제 살펴볼 유사도 점수는 쿼리와 직접 관련이 있습니다. 쿼리에 따라 실시간으로 점수를 계산해야하기 때문에 미리 계산해두기도 어렵습니다. 그렇지만 매우 중요합니다. 특히 쿼리와 그에 따른 문서가 얼마나 유사한지는 사실상 검색엔진의 핵심이라고 할 수 있죠. 누구나 내가 입력한 쿼리에 딱 맞는 결과를 원하니까요. 그렇다면 어떻게 쿼리에 딱 맞는 문서를 불러올 수 있을까요? 먼저 사용자가 입력한 쿼리가 문서 ..

2022. 5. 20. 10:29

TF-IDF(term frequency - inverse document frequency) 기본 맛보기

1. introduction 특정한 term의 등장빈도를 보면서 그 term이 제공하는 정보량까지 고려하겠다는 방법 단어가 제공하는 정보량은 사건이 희귀하게 발생하면 그 사건에 담긴 정보량은 많다는 것을 상기해보면 문서에서 덜 등장할수록 해당 단어가 주는 정보량이 많다는 것 2. term frequency 특정 단어가 해당 문서에 몇번 나오는지 빈도수를 계산하는 것 bag of words는 해당 문서에 몇번 나오든 관계없이 나오기만 하면 1, 없으면 0을 부여함 반면 term frequency관점에서는 여러번 등장하면 등장하는 만큼의 빈도수를 부여함 보통은 문서 내 총 단어수로 나눈 normalize 빈도수를 사용하여 0과 1사이의 값으로 나타내며 총 합은 1 이하가 되도록 만든다 3. Inverse d..