Loading...
2024. 8. 11. 17:22

RAG(Retrieval-Augmented Generation)의 개념 간단하게

LLM은 뛰어난 능력을 보여왔지만, 실제 사용을 위해서는 환각 현상이나 느린 지식 업데이트, 답변 투명성 부족 등 같은 문제를 해결해야합니다. RAG는 검색 - 증강 생성이라는 뜻으로 LLM에서 질문에 대한 답변이나 텍스트를 생성하기 전에,  광범위한 데이터베이스 집합에서 관련 정보를 검색하고 이러한 정보를 포함하여 자연스러운 답변을 생성하는 방법 LLM 내부적으로 훈련된 데이터가 시대에 뒤떨어져있을 수 있고, 특정 영역에 대해 지식이 부족할 수 있으며  응답의 투명성이 부족하다는 문제를 해결하는데 중점을 둔다    RAG는 답변의 정확도를 크게 향상시키고 지식 집약적인 작업에서 모델의 환각을 줄이는데 도움이 된다. 또한 사용자가 출처를 인용하여 답변의 정확성을 검증할 수도 있어 모델의 출력에 대한 신뢰..

2024. 8. 3. 03:06

matrix factorization을 이용한 추천시스템 간단한 이론과 구현예시

1. matrix factorization 사용자 * 아이템으로 구성된 하나의 행렬을 2개의 행렬로 분해하는 방법 사용자와 아이템이 각각 무엇인지는 모르겠지만 k개의 잠재요인(latent factor)으로 설명할 수 있다고 생각하고, (사용자 * 잠재요인) * (잠재요인 * 아이템)의 두 행렬의 곱으로 나타낼 수 있다는 것이다.   행렬 R은 M명의 사용자가 N개의 아이템에 대해 평가한 점수가 있는 행렬 M명의 사용자는 모든 아이템에 대해 평가하지는 않는다.  내가 소유한 아이템, 경험해본 아이템에 대해서는 평가할 수 있어도(혹은 평가하지 않고)  경험해보지 않은 아이템에 평가하지는 않는다(거짓으로 할수도 있겠지만..) 그래서 R은 대부분의 아이템이 NULL인 sparse matrix이다. 이러한 행렬 ..

2024. 7. 16. 23:16

latent factor model for recommendation system

1. motivation UV decomposition이라고도 부른다. (SVD라고도 부르나 수학에서 말하는 SVD랑은 조금 차이가 있음) 사용자와 상품그래프에서 사용자와 상품 node를 embedding vector로 잘 표현하는 것이 핵심이다.  2. example of embedding 사용자와 영화의 정보를 바탕으로 embedding한 예시    빨간색 네모부분 사람은 영화 브레이브하트와 리쏄 웨폰과 가까워서 이 영화를 추천하겠다 그러나 latent factor model의 핵심은  위와 같은 고정된 인수(액션, 로맨스 영화 등등)를 가지는 차원이 아닌  사용자와 상품의 정보를 효과적으로 학습하여 가장 추천을 잘 해줄법한 latent factor를 찾아내 그곳으로 embedding하겠다는 것이다...

2024. 7. 10. 01:53

딥러닝 경량화의 quantization 개념 소개

neural network의 weight나 activation을 연속적으로 정밀하게 미세한 값으로 표현하는 것보다  정밀도가 떨어지더라도 sparse하게 드문드문 떨어지는 덩어리 quantization으로 표현  1. 왜 하는가? 가장 중요한 부분은 training을 더 빠르게 하기위함보다는 inference 과정에서 속도를 빠르게 하고 싶어서 quantization을 하는 것 model size가 작아짐 32bit의 $2^{32}$에서 16bit로 $2^{16}$으로 8bit에서 $2^{8}$로 절반씩 표현능력과 size가 감소하나 그만큼 메모리양을 절약할 수 있음 저장된 데이터를 얼마나 읽어올 수 있는지 memory bandwidth의 필요량을 줄일 수 있다? 이게 무슨 말인지 생각해봤는데 큰 siz..

2024. 7. 8. 02:47

3D task를 위한 dataset과 3d task

1. 3d dataset 3d를 표현하는 방법을 알았으니 데이터로 만들 수 있다면 3d를 이해하는 모형을 만들 수 있을 것  1) ShapeNet 51300개의 3d 모델이 55 category로 구성된 엄청난 large scale의 데이터 가상으로 사람들이 디자인한 high quality synthetic object   2) PartNet ShapeNet의 개선 버전?으로 fine-grained dataset  하나의 3d object의 구성부분인 detail들이 annotation된 dataset 26671개의 3d model의 573585개의 part instance로 구성 part 뿐만 아니라 part의 구성요소도 색깔이 달라서 segmentation으로 굉장히 유용할 것   3) SceneNe..

2024. 7. 5. 00:49

추천시스템 평가 방법

사용자별 상품에 대한 평점을 원소로 가지는 행렬데이터를 생각 평점을 주지 않거나 구매하지 않은 경우에 대해서는 원소가 비어있다.     주어진 데이터를 적절한 비율의 훈련데이터와 평가데이터로 나누고  평가데이터는 추천시스템 모형을 만드는데 사용하지 않는다. 주어지지 않았다고 가정하자.    훈련 데이터를 이용해 만든 추천 시스템으로 평가 데이터의 빈 곳을 추정함     실제 평가데이터와 추정된 평가데이터를 비교하여 모형의 성능을 평가  비교하는 지표로는 MSE,RMSE부터 여러가지를 사용함     추정한 평점으로 순위를 매긴 후 실제 평점으로 매긴 순위와의 상관계수 추천한 상품 중 실제 구매로 이루어진 것의 비율 추천의 순서나 다양성까지 고려한 여러 지표들