1. 개념 소개 및 등장 배경 대규모 사전학습 언어 모델(LLM)은 방대한 지식을 파라미터에 내장하지만, 지식집약형 작업에서는 정확한 정보 접근과 조작에 한계가 있습니다ar5iv.org. 예를 들어 RAG(2020) 논문에서는 사전학습된 시퀀스-투-시퀀스(seq2seq) 모델(파라메트릭 메모리)과 위키피디아 지문을 색인한 밀집 검색(DPR) 모듈(비파라메트릭 메모리)을 결합하여, 입력 질문에 관련 문서를 검색한 후 이를 컨텍스트로 답변을 생성한다고 소개합니다ar5iv.orgarxiv.org. 이렇게 함으로써 기존 모델보다 질의응답 정확도를 크게 높이고, 생성한 답변의 구체성과 사실성도 개선할 수 있었습니다arxiv.orgar5iv.org. RAG는 특히 답변 근거 제시(provenance)와 지식 업데이..
1. LoRA(Low-Rank Adaptation)이란? LoRA는 거대한 사전학습 모델을 효율적으로 미세조정(fine-tuning)하기 위해 개발된 기법입니다. 전통적인 풀 파인튜닝에서는 모델의 모든 가중치를 업데이트해야 하지만, 모델 크기가 커질수록 계산량과 메모리 부담이 크게 늘어납니다. 예를 들어 GPT-3 175B 모델은 1750억 개의 파라미터를 전부 업데이트해야 하므로, 각각의 작업마다 별도 모델을 저장·운영하는 것이 거의 불가능합니다. 이에 LoRA는 사전학습된 가중치는 고정(freeze)한 채, 저차원 행렬을 각 Transformer 층에 추가하여 학습하는 방식을 제안합니다ar5iv.orghuggingface.co. 즉, 기존 가중치 $W^{(0)}$는 그대로 두고, 그 변화량 $\De..