1. 전체 요약 이 논문은 대형 언어 모델(LLM)에서 흔히 관찰되는 “attention sink” 현상, 즉 주로 첫 번째 토큰(보통 ⟨bos⟩ 토큰)이 전체 어텐션의 큰 부분을 차지하는 현상이 왜 나타나며 어떤 역할을 하는지를 분석합니다.1. 문제 제기 및 동기attention sink 현상: LLM에서 여러 어텐션 헤드가 존재하지만, 특히 첫 번째 토큰에 집중되는 경향이 관찰됩니다. 이는 ⟨bos⟩ 토큰 또는 첫 번째 입력 토큰이 대부분의 어텐션을 "흡수"하게 만드는 현상입니다.이전 연구와 차별점: 그동안 attention sink 문제는 주로 부작용(예: 양자화 문제, 보안 취약점, 스트리밍 어텐션 등)으로 다뤄졌지만, 이 논문에서는 왜 이런 패턴이 오히려 유용할 수 있는지를 이론적 및 실험적으로..
데이터셋을 다음과 같이 구현하고 def preprocess(data): preprocessed_data = [] for i in range(len(data)): d = data[i] knowledge = ' '.join(d['knowledge']) query = f"질문: {d['query']}\n지식: {knowledge}" answer = f"{d['answer']}" preprocessed_data.append((i,query,answer)) return preprocessed_data T5 토크나이저, 모델 불러온 다음 tokenizer = T5Tokenizer.from_pretrained('digit82/kolang-t5-base') model = T5ForConditionalGeneration..
1. plugin 설치 다음 링크에 나온대로 plugin을 모두 설치해줌 [CI CD] Jenkins와 Gitlab 연동 및 CI/CD 구축하기 (tistory.com) [CI CD] Jenkins와 Gitlab 연동 및 CI/CD 구축하기 1. Jenkins 플러그인 설치 우선, Jenkins와 Gitlab을 연동하여 CI/CD를 구축하기 위해선 다음 플러그인을 설치해야 합니다. 1. Bitbucket Pipeline for Blue Ocean 2. Dashboard for Blue Ocean 3. Personalization for Blue Ocean 4. Di pangtrue.tistory.com 좌측 메뉴에 jenkins 관리 > 우측 메뉴들에 플러그인 관리로 들어간다 좌측에 available p..
1. natural language problem 컴퓨터가 주어진 인간의 단어나 문장을 이해하는 understanding과 적절한 자연어를 생성하는 generation으로 나뉜다. 컴퓨터 비전(CV) 분야와 더불어 딥러닝의 발전과 함께 인공지능이 가장 활발하게 적용된 분야중 하나 현재까지 주어진 단어나 문장, 문단을 보고 다음 단어를 예측하는 language modeling 주어진 문장을 이해하여 적절한 번역문을 차례대로 생성하는 machine translation 주어진 지문을 이해하고 그에 대한 질문에 적절한 대답을 제시하는 question answering 다양한 카테고리의 여러 문서를 적절한 카테고리로 분류하는 document classification 인간의 물음을 이해하고 적절한 대답을 생성하..