Loading...
2024. 7. 17. 23:46

사용자와 상품의 편향을 고려한 latent factor model

1. 편향(bias) 사용자의 편향은 해당 사용자가 매긴 평점들의 평균과 전체 상품들의 평점평균의 차이 전체 평점평균에 대해 이 사용자는 얼마나 평가를 후하게 하는지 박하게 하는지 알 수 있다.    나연은 전체 상품들의 평점평균에 비해 0.3점 정도 더 주는 경향이 있다. 상품의 편향은 해당 상품이 받은 평점들의 평균과 전체 상품들의 평점평균의 차이 해당 상품이 전체 상품의 평점평균에 비해 얼마나 좋은 평가를 받는지 나쁜 평가를 받는지 알 수 있다.   식스센스는 전체 상품들의 평점평균에 비해 0.8점정도 긍정적으로 평가 받는다 사용자와 상품의 편향은 현재 주어진 데이터로부터 계산한 예측값이다.  그러니까 정확한 상수가 아니라는 뜻이다.  데이터가 추가되면 사용자의 평점이나 상품의 평점은 바뀌기 때문에..

2024. 7. 16. 23:16

latent factor model for recommendation system

1. motivation UV decomposition이라고도 부른다. (SVD라고도 부르나 수학에서 말하는 SVD랑은 조금 차이가 있음) 사용자와 상품그래프에서 사용자와 상품 node를 embedding vector로 잘 표현하는 것이 핵심이다.  2. example of embedding 사용자와 영화의 정보를 바탕으로 embedding한 예시    빨간색 네모부분 사람은 영화 브레이브하트와 리쏄 웨폰과 가까워서 이 영화를 추천하겠다 그러나 latent factor model의 핵심은  위와 같은 고정된 인수(액션, 로맨스 영화 등등)를 가지는 차원이 아닌  사용자와 상품의 정보를 효과적으로 학습하여 가장 추천을 잘 해줄법한 latent factor를 찾아내 그곳으로 embedding하겠다는 것이다...

2024. 7. 10. 01:53

딥러닝 경량화의 quantization 개념 소개

neural network의 weight나 activation을 연속적으로 정밀하게 미세한 값으로 표현하는 것보다  정밀도가 떨어지더라도 sparse하게 드문드문 떨어지는 덩어리 quantization으로 표현  1. 왜 하는가? 가장 중요한 부분은 training을 더 빠르게 하기위함보다는 inference 과정에서 속도를 빠르게 하고 싶어서 quantization을 하는 것 model size가 작아짐 32bit의 $2^{32}$에서 16bit로 $2^{16}$으로 8bit에서 $2^{8}$로 절반씩 표현능력과 size가 감소하나 그만큼 메모리양을 절약할 수 있음 저장된 데이터를 얼마나 읽어올 수 있는지 memory bandwidth의 필요량을 줄일 수 있다? 이게 무슨 말인지 생각해봤는데 큰 siz..

2024. 7. 8. 02:47

3D task를 위한 dataset과 3d task

1. 3d dataset 3d를 표현하는 방법을 알았으니 데이터로 만들 수 있다면 3d를 이해하는 모형을 만들 수 있을 것  1) ShapeNet 51300개의 3d 모델이 55 category로 구성된 엄청난 large scale의 데이터 가상으로 사람들이 디자인한 high quality synthetic object   2) PartNet ShapeNet의 개선 버전?으로 fine-grained dataset  하나의 3d object의 구성부분인 detail들이 annotation된 dataset 26671개의 3d model의 573585개의 part instance로 구성 part 뿐만 아니라 part의 구성요소도 색깔이 달라서 segmentation으로 굉장히 유용할 것   3) SceneNe..

2024. 7. 6. 01:55

backbone model이 필요한 이유

모델을 처음부터 만들어서 경량화 시켜 사용할 수 있지만  처음부터 만든다는 것이 쉬운일도 아니고 다른 domain에서 성능이 좋으리라는 보장도 없다  그러나 이미 검증된 ResNet, VGGNet, MobileNet, SqueezeNet 등등은 많은 사람들에게 여러 방면에서 검증이 되어 있어서 backbone으로 사용하기에 적절하다.  단점도 보완되어 발전하여 최신버전들로 계속 나오며 pretrain된 모델을 torchvision등에서 쉽게 가져와 사용할수도 있다 유명한 backbone들은 각각의 특징도 다양하다    dataset도 직접 모을 수 있지만 직접 모으는 것은 비용이 많이 든다.  쉽게 사용하라고 cifar10, cifar100, imagenet 등 공개되어 잘 알려진 dataset을 사용하..

2024. 7. 5. 00:49

추천시스템 평가 방법

사용자별 상품에 대한 평점을 원소로 가지는 행렬데이터를 생각 평점을 주지 않거나 구매하지 않은 경우에 대해서는 원소가 비어있다.     주어진 데이터를 적절한 비율의 훈련데이터와 평가데이터로 나누고  평가데이터는 추천시스템 모형을 만드는데 사용하지 않는다. 주어지지 않았다고 가정하자.    훈련 데이터를 이용해 만든 추천 시스템으로 평가 데이터의 빈 곳을 추정함     실제 평가데이터와 추정된 평가데이터를 비교하여 모형의 성능을 평가  비교하는 지표로는 MSE,RMSE부터 여러가지를 사용함     추정한 평점으로 순위를 매긴 후 실제 평점으로 매긴 순위와의 상관계수 추천한 상품 중 실제 구매로 이루어진 것의 비율 추천의 순서나 다양성까지 고려한 여러 지표들