https://discuss.pytorch.kr/t/deep-research-llm/6112 [Deep Research] 강화학습의 개념과 주요 기법 분석, LLM에서의 활용 및 발전 방향에 대한 보고서들어가며 :pytorch:🇰🇷 최근 DeepSeek-R1 모델의 GRPO를 비롯하여 LLM 및 Multimodal LLM의 사후 학습 과정에서 강화학습(RL)을 적용하려는 시도가 많아지고 있습니다. 관련하여 강화학습의 개념과 주요 기discuss.pytorch.kr 1. 강화학습이란 무엇인가? 강화학습(Reinforcement Learning, RL)은 기계학습의 한 분야로, 에이전트(Agent)가 환경(Environment) 과 상호작용하면서 보상(Reward) 이라는 피드백을 받으며 시행착오(tr..
1. RNN 딥러닝이나 머신러닝 분야에서 텍스트는 단어가 연결된 문장 형태의 데이터를 일컫는다. 이처럼 작은 단위의 데이터가 연결되고 그 길이가 다양한 데이터의 형태를 시퀀스(sequence)라고 한다. 텍스트, 오디오, 시계열같은 데이터는 sequence이다. 역사적으로 이러한 시퀀스 데이터를 처리하기 위해 RNN이나 transformer의 2가지 아키텍처로 대표되는 다양한 모델을 사용했다. transformer가 개발되기 전에는 RNN을 활용해 텍스트를 생성했다. RNN은 위 그림같이 입력하는 텍스트를 순차적으로 처리해서 다음 단어를 예측한다. 특징으로는 모델이 하나의 잠재 상태 hidden state에 지금까지 입력 텍스트의 맥락을 압축한다는 점이다. 첫번째 입력인 '검은'이 모델을 통과하면 h..