'분류 전체보기' 카테고리의 글 목록

강화학습의 개념과 주요기법 분석 그리고 LLM에서의 발전 방향

https://discuss.pytorch.kr/t/deep-research-llm/6112 [Deep Research] 강화학습의 개념과 주요 기법 분석, LLM에서의 활용 및 발전 방향에 대한 보고서들어가며 :pytorch:🇰🇷 최근 DeepSeek-R1 모델의 GRPO를 비롯하여 LLM 및 Multimodal LLM의 사후 학습 과정에서 강화학습(RL)을 적용하려는 시도가 많아지고 있습니다. 관련하여 강화학습의 개념과 주요 기discuss.pytorch.kr 1. 강화학습이란 무엇인가? 강화학습(Reinforcement Learning, RL)은 기계학습의 한 분야로, 에이전트(Agent)가 환경(Environment) 과 상호작용하면서 보상(Reward) 이라는 피드백을 받으며 시행착오(tr..

format_list_bulleted reinforcement learning
· 2025. 4. 23.
textsms

왜도(skewness)에 대한 오해 - 오른쪽으로 치우친 분포와 왼쪽으로 치우친 분포?

1. skewness(왜도) 실수 값을 가지는 확률 변수의 분포가 평균을 기준으로 얼마나 비대칭적인지를 나타내는 척도 양수, 0, 음수 혹은 정의되지 않음이 될 수 있다 수학적으로 확률변수 X의 3차 표준화 적률이다. $E((\frac{X-\mu}{\sigma})^{3}) = \frac{1}{\sigma^{3}} E((X-\mu)^{3})$ 여기서 $\sigma^{2} = E((X-\mu)^{2})$ 이므로, $E((\frac{X-\mu}{\sigma})^{3}) = \frac{E(((X-\mu)^{3})}{E((X-\mu)^{2})^{3/2}}$ 표본 왜도는 다음과 같이 정의된다. 2. 왼쪽으로 치우친 분포와 오른쪽으로 치우친 분포 아래 그림의 확률 분포를 보면 첫번째 그림은 왼쪽 값들이 가..

format_list_bulleted 다시보는 통계학
· 2025. 4. 21.
textsms

AI 모델 성능 평가 지표로 loss function은 왜 사용하지 않는가?

1. loss function 데이터의 실제 정답과 모델이 내놓은 예측값의 차이로 정의되는 함수 그렇다면 이렇게 생각할 수 있다. loss function의 값이 작을수록 모델의 성능이 좋은 것인가? 여러 모델을 학습시켜보고 loss function의 값이 작은 모델을 선택하면 되는 것 아닌가? 2. loss function과 evaluation metric loss function은 딥러닝 모델 학습 중에 사용되고, 모델이 예측한 출력과 실제 출력 간의 차이를 측정 이 차이를 최소화함으로써 모델의 파라미터를 최적화하는 것이 목적이다. 반면 evaluation metric은 모델을 훈련하고 나서 사용되며, 모델이 새로운 데이터에 대해 얼마나 잘 일반화하고, 정확한 예측을 하는지 평가하는 지표이다. 또한..

format_list_bulleted 딥러닝 기초
· 2025. 4. 19.
textsms

지뢰찾기 게임에서 지뢰의 최대 개수를 찾는 알고리즘

9082번: 지뢰찾기 2*n 배열이 주어진다. 첫번째 행은 숫자들이 쓰여있는데 그 블록 주위에 지뢰가 몇개 있는지를 나타낸다. 두번째 행은 지뢰가 숨겨져 있는 행인데, *, #으로만 주어진다. *은 지뢰이다. 예를 들어 11122####*로 주어진다면 첫번째 #은 바로 위에 1이 쓰여있고, 우측 대각선 상단에 1이 쓰여있으므로 지뢰가 있을 수 있다. 11122*###* 그리고 4번째 #에는 왼쪽 대각선 상단에 1, 바로 위 2, 우측 대각선 상단에 2가 쓰여있는 것으로 보아 지뢰가 있을 수 있다 11122*##** 이때 *을 포함해서 숨겨진 지뢰의 최대 개수를 구한다. ---------------------------------------------------------------------------..

format_list_bulleted 애드 혹 알고리즘
· 2025. 4. 16.
textsms

Why do LLMs attend to the first token?

1. 전체 요약 이 논문은 대형 언어 모델(LLM)에서 흔히 관찰되는 “attention sink” 현상, 즉 주로 첫 번째 토큰(보통 ⟨bos⟩ 토큰)이 전체 어텐션의 큰 부분을 차지하는 현상이 왜 나타나며 어떤 역할을 하는지를 분석합니다.1. 문제 제기 및 동기attention sink 현상: LLM에서 여러 어텐션 헤드가 존재하지만, 특히 첫 번째 토큰에 집중되는 경향이 관찰됩니다. 이는 ⟨bos⟩ 토큰 또는 첫 번째 입력 토큰이 대부분의 어텐션을 "흡수"하게 만드는 현상입니다.이전 연구와 차별점: 그동안 attention sink 문제는 주로 부작용(예: 양자화 문제, 보안 취약점, 스트리밍 어텐션 등)으로 다뤄졌지만, 이 논문에서는 왜 이런 패턴이 오히려 유용할 수 있는지를 이론적 및 실험적으로..

format_list_bulleted AI trend research
· 2025. 4. 15.
textsms

DoReFa-Net과 binarized neural network

1. DoReFa-Net low bit의 weight와 activation을 사용하여 CNN을 train하는 방법 이전에는 weight나 activation을 quantization하는 시도는 많았지만, DoReFa-Net은 gradient를 quantization함 backward pass중에 convolutional layer에 들어가기 전에 parameter의 gradient를 확률적으로 low bit quantize함 bit convolution kernel을 사용하여 training과 inference 속도를 높였다 bit convolution kernel은 bitwise operation만으로 dot product를 계산할 수 있도록 함 그러면서 GPU,ASIC,FPGA 뿐만 아니라 CPU에서..

format_list_bulleted light weight modeling
· 2025. 4. 13.
textsms

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

강화학습의 개념과 주요기법 분석 그리고 LLM에서의 발전 방향

왜도(skewness)에 대한 오해 - 오른쪽으로 치우친 분포와 왼쪽으로 치우친 분포?

AI 모델 성능 평가 지표로 loss function은 왜 사용하지 않는가?

지뢰찾기 게임에서 지뢰의 최대 개수를 찾는 알고리즘

Why do LLMs attend to the first token?

DoReFa-Net과 binarized neural network

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역