Loading...
2023. 6. 18. 01:46

Nearest neighbor search vs. t-sne를 이용한 차원 축소 기법

1. Nearest neighbor search - idea high level에서 나온 feature에 대한 분석 여러가지 이미지 데이터를 주고 데이터 베이스에 저장된 데이터중 이들과 가장 비슷한 데이터를 유사도에 따라 정렬 왼쪽이 input으로 준 이미지 데이터이고 오른쪽이 유사한 정도에 따라 정렬한 결과 이 결과를 잘 살펴보면 코끼리 같은 경우 코끼리라는 의미로 비슷한 이미지들이 clustering되어있는 것을 확인 가능 이 모형이 이미지의 의미를 잘 파악했구나로 생각 가능하다 비슷한 이미지 검색을 어떻게 했을지 생각해본다면 단순하게 두 이미지 사이에서 대응하는 pixel별로 거리가 가까운 걸 고를수있는데 그렇게 한 경우 마지막 줄에 주어진 개 이미지의 경우 포즈가 거의 비슷한 개만 출력해야하는데 ..

2022. 11. 10. 02:01

추천시스템 기본이론2 -collaborative filtering-

1. motivation 상품을 추천하고자하는 사용자가 x일때, x와 유사한 취향을 가지는 여러 사용자들을 찾는다. 이 유사한 취향을 가지는 여러 사용자들이 선호한 상품들을 찾는다. 이 상품들을 x에게 추천하고자 하는 방법이 협업 필터링이다. 2. idea 유사한 취향의 사용자들을 찾는 것이 핵심인데 어떻게 찾아야 할까? 위와 같은 상황을 상상해보자. 평점이 입력되지 않는 경우도 존재한다. 그리고 한눈에 보면 지수와 제니는 취향이 비슷하고 제니와 로제는 취향이 서로 반대된다. 지표로 어떻게 나타내냐? 평점간 상관계수로 두 사람의 취향의 유사도를 구하는 것이다. 공동 구매한 상품을 가정하고 있는데 2명중 평점을 1명만 제시한 경우 그 상품은 상관계수 계산에 제외하겠다는 것이다. 당연하지만 분자를 보면 같은..

2022. 5. 26. 21:38

dense embedding encoder modeling -개요와 학습방법-

1. overview 가지고 있는 passage를 BERTp라는 encoder에 넣어 hp라는 passage embedding을 가지고 있는 모든 passage에 대해 얻음 query는 BERTp와는 parameter가 다른 BERTq라는 encoder에 넣어 question embedding hq를 얻는다. 여기서 중요한 점은 hp와 hq는 size가 같아야한다. inner product score를 구하려면.. passage embedding과 query embedding을 얻으면 유사도를 계산할 수 있다. 일반적인 방식은 dot product로 유사도에 대한 scalar value를 얻는다. 질문은 하나고, passage는 여러개니까 하나의 질문 embedding인 hq에 대해 모든 hp와의 유사도..

2022. 5. 20. 10:29

TF-IDF(term frequency - inverse document frequency) 기본 맛보기

1. introduction 특정한 term의 등장빈도를 보면서 그 term이 제공하는 정보량까지 고려하겠다는 방법 단어가 제공하는 정보량은 사건이 희귀하게 발생하면 그 사건에 담긴 정보량은 많다는 것을 상기해보면 문서에서 덜 등장할수록 해당 단어가 주는 정보량이 많다는 것 2. term frequency 특정 단어가 해당 문서에 몇번 나오는지 빈도수를 계산하는 것 bag of words는 해당 문서에 몇번 나오든 관계없이 나오기만 하면 1, 없으면 0을 부여함 반면 term frequency관점에서는 여러번 등장하면 등장하는 만큼의 빈도수를 부여함 보통은 문서 내 총 단어수로 나눈 normalize 빈도수를 사용하여 0과 1사이의 값으로 나타내며 총 합은 1 이하가 되도록 만든다 3. Inverse d..

2022. 2. 7. 15:48

유사도(similarity)와 거리(distance)는 무슨 차이가 있을까?(+ cosine distance vs. euclidean distance)

유사도와 거리는 밀접한 관계가 있다고 생각할 수 있다. 거리가 클 수록 유사도는 떨어진다. 비교하는 특징은 같으나 측량하는 관점에서는 서로 반대라는 것이다. 두 데이터 X,Y의 거리함수(distance function) d는 수학적으로 다음과 같이 정의한다. 위 식을 모두 만족하는 d가 거리함수다 유사도함수 s(X,Y)는 실수값을 출력하는 함수로 특별한 정의는 없다. 그래서 조금 더 일반적이다(general) 유사도함수가 특별히 [0,1]내에서 값을 가진다고 하면 두 함수 의미의 서로 반대의미와 identity-discening에 주목하여 유사도함수가 위의 거리함수의 공리를 모두 만족한다면 완벽하게 혼용해서 사용할 수 있다. 그런데 모든 유사도함수가 위의 조건을 만족할까? 그렇지도 않다. 지금 당장 생각..

2022. 1. 7. 00:08

벡터의 내적의 기하학적 의미

1. 내적의 기하학적 의미 1-1) 정사영(projection) 위의 그림에서 벡터 a를 x의 정사영이라고 부른다 (projection) 1-2) 정사영의 길이 삼각함수 cos을 이용하여 위와 같이 정사영의 길이를 쉽게 구할 수 있다. 1-3) 두 벡터의 유사도 그렇다면 x,y의 내적은 x의 정사영벡터 크기에 벡터 y의 길이를 곱한 것이 된다. 그러므로 우리는 내적을 두 벡터 x,y의 유사도 측정에 사용할 수 있을 것 같다. 두 벡터가 비슷할수록 정사영의 길이가 커서 내적도 크다 두 벡터가 비슷할수록 두 벡터가 이루는 각의 크기가 작다(cosine 값이 크다) 두 벡터의 내적이 클수록 두 벡터가 그만큼 유사하다는 것 내적이 크다는 것은 두 벡터가 이루는 각이 작아야한다는 뜻임 두 벡터는 두개의 데이터로 ..