사용자별 상품에 대한 평점을 원소로 가지는 행렬데이터를 생각 평점을 주지 않거나 구매하지 않은 경우에 대해서는 원소가 비어있다. 주어진 데이터를 적절한 비율의 훈련데이터와 평가데이터로 나누고 평가데이터는 추천시스템 모형을 만드는데 사용하지 않는다. 주어지지 않았다고 가정하자. 훈련 데이터를 이용해 만든 추천 시스템으로 평가 데이터의 빈 곳을 추정함 실제 평가데이터와 추정된 평가데이터를 비교하여 모형의 성능을 평가 비교하는 지표로는 MSE,RMSE부터 여러가지를 사용함 추정한 평점으로 순위를 매긴 후 실제 평점으로 매긴 순위와의 상관계수 추천한 상품 중 실제 구매로 이루어진 것의 비율 추천의 순서나 다양성까지 고려한 여러 지표들
1. motivation 상품을 추천하고자하는 사용자가 x일때, x와 유사한 취향을 가지는 여러 사용자들을 찾는다. 이 유사한 취향을 가지는 여러 사용자들이 선호한 상품들을 찾는다. 이 상품들을 x에게 추천하고자 하는 방법이 협업 필터링이다. 2. idea 유사한 취향의 사용자들을 찾는 것이 핵심인데 어떻게 찾아야 할까? 위와 같은 상황을 상상해보자. 평점이 입력되지 않는 경우도 존재한다. 그리고 한눈에 보면 지수와 제니는 취향이 비슷하고 제니와 로제는 취향이 서로 반대된다. 지표로 어떻게 나타내냐? 평점간 상관계수로 두 사람의 취향의 유사도를 구하는 것이다. 공동 구매한 상품을 가정하고 있는데 2명중 평점을 1명만 제시한 경우 그 상품은 상관계수 계산에 제외하겠다는 것이다. 당연하지만 분자를 보면 같은..
1. 상관계수(correlation coefficient) 두 변수의 통계적 관계를 나타내는 상관관계의 정도를 수치로 나타낸 값 -1부터 1까지의 값을 가지며, 0인 경우는 상관관계가 없다고 말한다. 세가지 성질을 가지는 것이 좋다. 1)두 변수의 값이 완전한 부합이면 +1, 완전한 비부합이면 -1 2)두 변수가 서로 독립이면 0 3)두 변수에 대해 크기의 순서가 보존되는 변환을 수행해도 상관계수의 값은 변하지 않는다 수치를 확인하기 전에 산점도(scatter plot)를 먼저 그리고 수치적으로 파악하는 것이 기본 2. 피어슨 상관계수(pearson) 두 변수 X,Y의 선형적 관계(linear relationship)의 측도 선형적 관계가 강하다는 것은 선형모형에 의해 두 변수의 관계를 잘 모델링할 수 ..
1. 결정계수에 대한 오해 결정계수(coefficient of determination) R2은 많은 교재에서나 제곱이라는 그 모습 R2때문에 0이상 1이하라고 오해하기 쉬운데 사실 결정계수는 음수일 수 있다 2. 제곱합모든 독립변수 x에 대하여 종속변수 y를 가집니다. 가장 적합한 회귀직선을 그려 x의 값에 대하여 y의 값을 예측하고자 합니다. 2-1) 잔차제곱합 y의 예측값을 ˆy 이라고 한다면 회귀직선이 예측한 값과 실제 y값의 차이를 이용해 error를 계산할 수 있습니다. 이러한 차이 error를 제곱하여 더한 것을 잔차제곱합이라 부르고 보통 SSE라고 표현합니다. SSE=∑(y−ˆy)2 2-2) 전체제곱합 다음으로 실제 y의 평균값을 계산할..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.