
1. 개념 소개 및 등장 배경 대규모 사전학습 언어 모델(LLM)은 방대한 지식을 파라미터에 내장하지만, 지식집약형 작업에서는 정확한 정보 접근과 조작에 한계가 있습니다ar5iv.org. 예를 들어 RAG(2020) 논문에서는 사전학습된 시퀀스-투-시퀀스(seq2seq) 모델(파라메트릭 메모리)과 위키피디아 지문을 색인한 밀집 검색(DPR) 모듈(비파라메트릭 메모리)을 결합하여, 입력 질문에 관련 문서를 검색한 후 이를 컨텍스트로 답변을 생성한다고 소개합니다ar5iv.orgarxiv.org. 이렇게 함으로써 기존 모델보다 질의응답 정확도를 크게 높이고, 생성한 답변의 구체성과 사실성도 개선할 수 있었습니다arxiv.orgar5iv.org. RAG는 특히 답변 근거 제시(provenance)와 지식 업데이..
1. LoRA(Low-Rank Adaptation)이란? LoRA는 거대한 사전학습 모델을 효율적으로 미세조정(fine-tuning)하기 위해 개발된 기법입니다. 전통적인 풀 파인튜닝에서는 모델의 모든 가중치를 업데이트해야 하지만, 모델 크기가 커질수록 계산량과 메모리 부담이 크게 늘어납니다. 예를 들어 GPT-3 175B 모델은 1750억 개의 파라미터를 전부 업데이트해야 하므로, 각각의 작업마다 별도 모델을 저장·운영하는 것이 거의 불가능합니다. 이에 LoRA는 사전학습된 가중치는 고정(freeze)한 채, 저차원 행렬을 각 Transformer 층에 추가하여 학습하는 방식을 제안합니다ar5iv.orghuggingface.co. 즉, 기존 가중치 $W^{(0)}$는 그대로 두고, 그 변화량 $\De..
1. 전체 요약 이 논문은 대형 언어 모델(LLM)에서 흔히 관찰되는 “attention sink” 현상, 즉 주로 첫 번째 토큰(보통 ⟨bos⟩ 토큰)이 전체 어텐션의 큰 부분을 차지하는 현상이 왜 나타나며 어떤 역할을 하는지를 분석합니다.1. 문제 제기 및 동기attention sink 현상: LLM에서 여러 어텐션 헤드가 존재하지만, 특히 첫 번째 토큰에 집중되는 경향이 관찰됩니다. 이는 ⟨bos⟩ 토큰 또는 첫 번째 입력 토큰이 대부분의 어텐션을 "흡수"하게 만드는 현상입니다.이전 연구와 차별점: 그동안 attention sink 문제는 주로 부작용(예: 양자화 문제, 보안 취약점, 스트리밍 어텐션 등)으로 다뤄졌지만, 이 논문에서는 왜 이런 패턴이 오히려 유용할 수 있는지를 이론적 및 실험적으로..
1. transformer 아키텍처 2017년 구글에서 발표한 Attention is All you need 논문에서 처음 등장 머신러닝을 통해 언어를 번역하는 기계 번역 성능을 높이기 위한 방법을 연구하였는데, 당시 널리 사용된 RNN에 비해 성능 면에서 큰 폭으로 앞섰다. 또한 RNN에 비해 모델 학습 속도도 빨랐다. 이렇게 완전히 새로운 형태의 모델이 성능과 속도 면에서 뛰어난 모습을 보여 많은 인공지능 연구자들이 각자 연구에 transformer를 적용하기 시작 현재 transformer은 자연어 처리는 물론 컴퓨터 비전, 추천 시스템 등 모든 AI 분야에서 핵심 아키텍처가 되었다. 기존에 자연어 처리 문제에서 사용하던 RNN은 다음과 같이 텍스트를 순차적으로 하나씩 입력하는 형태다 사람이..
1. RNN 딥러닝이나 머신러닝 분야에서 텍스트는 단어가 연결된 문장 형태의 데이터를 일컫는다. 이처럼 작은 단위의 데이터가 연결되고 그 길이가 다양한 데이터의 형태를 시퀀스(sequence)라고 한다. 텍스트, 오디오, 시계열같은 데이터는 sequence이다. 역사적으로 이러한 시퀀스 데이터를 처리하기 위해 RNN이나 transformer의 2가지 아키텍처로 대표되는 다양한 모델을 사용했다. transformer가 개발되기 전에는 RNN을 활용해 텍스트를 생성했다. RNN은 위 그림같이 입력하는 텍스트를 순차적으로 처리해서 다음 단어를 예측한다. 특징으로는 모델이 하나의 잠재 상태 hidden state에 지금까지 입력 텍스트의 맥락을 압축한다는 점이다. 첫번째 입력인 '검은'이 모델을 통과하면 h..
https://rocm.blogs.amd.com/artificial-intelligence/introducing-instella-3B/README.html?utm_source=pytorchkr&ref=pytorchkr Introducing Instella: New State-of-the-art Fully Open 3B Language Models — ROCm BlogsAlignment to human preferences and strengthen chat capabilities with direct preference optimization (DPO).rocm.blogs.amd.com https://discuss.pytorch.kr/t/amd-mi300x-gpu-instella-3b/6297 AMD, ..