Loading...
2022. 12. 27. 01:17

비전공자도 이해할 수 있는 AI지식 -구글은 어떻게 언어를 숫자로 바꿨는가-

1. Word2Vec, 언어를 숫자로 바꾸다 2013년 구글은 단어의 의미를 벡터로 표현하는 매우 획기적인 방법을 발표합니다. 그 방법의 이름은 Word2Vec으로, 단어를 벡터로 바꾼다는 매우 직관적인 이름입니다. 무엇보다 놀랍도록 정교하게 단어의 의미를 표현해내 많은 이가 깜짝 놀랐습니다. 이처럼 단어를 벡터라는 숫자로 표현하는 것은 단어 각각의 특징을 추출해 수치화하는 것과 비슷합니다. 예를 들어 '단맛', '크기', '둥근 정도'라는 3가지 특징으로 단어 '캐러멜', '호박', '태양'을 표현해보죠. 관련이 전혀 없다면 0.01, 관련이 매우 높다면 0.99까지 가중치를 준다고 해봅시다. 단어 단맛 크기 둥근 정도 캐러멜 0.92 0.06 0.02 호박 0.23 0.29 0.62 태양 0.01 0..

2022. 11. 15. 22:36

비전공자도 이해할 수 있는 AI지식 -나와 취향이 비슷한 사람이 본 것을 추천해준다-

1. 콘텐츠 기반 필터링 - 내가 좋아하는 것과 비슷한 것을 추천해준다 유튜브나 영화나 영상의 기본적인 추천 방식은 크게 다르지 않습니다 먼저 추천 시스템은 보통 다음과 같은 2가지 방식을 대표적으로 사용합니다. 1) 콘텐츠 기반 필터링(Content-based filtering) 내가 선호하는 영화와 비슷한 영화를 추천하는 방식 2) 협업 필터링(Collaborative filtering) 나와 비슷한 고객이 시청한 영화를 추천하는 방식 먼저 콘텐츠 기반 필터링부터 살펴보겠습니다. 콘텐츠 기반 필터링은 고객이 선호하는 영화의 특징에 기반해 유사한 영화를 추천해줍니다. 예를 들어 액션 영화를 선호하면 또 다른 액션 영화를, 공포 영화를 선호하면 또 다른 공포영화를 추천하는 식이죠 영화/특징 공포-드라마 ..

2022. 2. 7. 15:48

유사도(similarity)와 거리(distance)는 무슨 차이가 있을까?(+ cosine distance vs. euclidean distance)

유사도와 거리는 밀접한 관계가 있다고 생각할 수 있다. 거리가 클 수록 유사도는 떨어진다. 비교하는 특징은 같으나 측량하는 관점에서는 서로 반대라는 것이다. 두 데이터 X,Y의 거리함수(distance function) d는 수학적으로 다음과 같이 정의한다. 위 식을 모두 만족하는 d가 거리함수다 유사도함수 s(X,Y)는 실수값을 출력하는 함수로 특별한 정의는 없다. 그래서 조금 더 일반적이다(general) 유사도함수가 특별히 [0,1]내에서 값을 가진다고 하면 두 함수 의미의 서로 반대의미와 identity-discening에 주목하여 유사도함수가 위의 거리함수의 공리를 모두 만족한다면 완벽하게 혼용해서 사용할 수 있다. 그런데 모든 유사도함수가 위의 조건을 만족할까? 그렇지도 않다. 지금 당장 생각..