DeepSeek-R1: Incentivizing Reasoning Capability in LLMs viaReinforcement Learning
대규모 언어 모델(LLM, Large Language Model)은 최근 몇 년간 비약적으로 발전하며 인공지능(AI) 연구에서 핵심적인 위치를 차지하고 있습니다.
특히 OpenAI, Anthropic, Google 등의 연구 기관이 개발한 최신 모델들은 언어 이해와 생성뿐만 아니라 수학, 과학, 코딩 등 다양한 논리적 추론 작업에서 탁월한 성능을 보여주고 있습니다.
하지만 기존 연구들은 대부분 사전 학습(pre-training)과 지도학습(supervised fine-tuning)을 기반으로 하고 있으며, 이는 막대한 데이터와 연산 자원이 필요하다는 한계를 가지고 있습니다.
최근 들어 **사후 훈련(post-training)**이 전체 훈련 과정에서 중요한 요소로 떠오르고 있습니다.
이는 추론 작업의 정확도를 향상시키고, 사회적 가치와의 정렬을 강화하며, 사용자 선호도에 적응하도록 돕는 것으로 밝혀졌습니다.
또한, 사전 훈련에 비해 상대적으로 적은 계산 자원만을 필요로 한다는 장점이 있습니다.
이 연구에서는 순수한 강화학습(RL)만을 사용하여 언어 모델의 추론 능력을 향상시키는 기법을 제시합니다.
즉, 지도학습 데이터 없이 LLM이 스스로 진화(self-evolution)하는 과정을 통해 추론 능력을 개발할 가능성을 탐구하는 것입니다.
DeepSeek-V3-Base를 기본 모델로 사용하여 GRPO(Shao et al., 2024)를 RL 프레임워크로 활용하여 모델의 추론 성능을 향상시켰습니다.
학습 과정에서 DeepSeek-R1-Zero는 수많은 강력하고 흥미로운 추론 행동을 자연스럽게 학습했습니다.
RL 단계를 수천 번 거친 후, DeepSeek-R1-Zero는 추론 벤치마크에서 뛰어난 성능을 보여주었으며, 예를 들어, AIME 2024에서 pass@1 점수는 15.6%에서 71.0%로 상승했으며, 다수결 투표(Majority Voting)를 통해 점수가 86.7%로 추가 상승하여 OpenAI-o1-0912와 유사한 성능을 기록했습니다.
하지만 DeepSeek-R1-Zero는 낮은 가독성 및 언어 혼합과 같은 문제에 직면했습니다.
이러한 문제를 해결하고 추론 성능을 더욱 향상시키기 위해, 소량의 초기 데이터와 다단계 학습 파이프라인을 도입한 DeepSeek-R1을 개발했습니다.
구체적으로, 우리는 먼저 수천 개의 초기 데이터(cold-start data)를 수집하여 DeepSeek-V3-Base 모델을 미세 조정(fine-tuning) 합니다. 이후, **DeepSeek-R1-Zero와 동일한 방식으로 추론 중심의 강화 학습(RL)**을 수행합니다.
RL 과정에서 수렴에 가까워질 무렵,
- RL 체크포인트에서 거절 샘플링(rejection sampling)을 통해 새로운 SFT 데이터를 생성하고,
- DeepSeek-V3의 지도 학습 데이터(예: 글쓰기, 사실 기반 QA, 자기 인식(self-cognition) 등의 도메인)와 결합하여,
- DeepSeek-V3-Base 모델을 다시 학습(retrain) 시킵니다.
이를 통해 OpenAI-o1-1217에 필적하는 성능을 달성한 체크포인트를 확보했습니다.
DeepSeek-R1 연구는 지도 데이터의 의존도를 낮추면서도 추론 성능을 향상시키는 새로운 방법론을 제시하고 있으며,
특히, 강화학습과 지식 증류를 결합한 접근법은 모델 학습의 경제성을 높일 수 있을 것으로 기대합니다.
이 연구의 주요 기여는 다음과 같습니다:
- DeepSeek-R1-Zero: 지도학습 기반 파인튜닝(SFT) 없이, 기본 모델에 강화학습(RL)을 직접 적용
- DeepSeek-R1: R1-Zero 모델의 문제를 해결하기 위해 소규모의 초기 데이터(Cold-Start Data)와 다단계 학습을 결합하여 더 높은 성능 달성
- 지식 증류(Distillation): 대형 모델에서 학습된 추론 패턴을 소형 모델로 전이하여 효율성 극대화
DeepSeek-R1-Zero: 기본 모델에서의 강화학습 (Reinforcement Learning on the Base Model)
DeepSeek-R1-Zero는 사전학습된 모델에 대해, 지도학습 기반의 파인튜닝(Supervised Fine-Tuning, SFT)을 사전 단계로 활용하지 않고 대규모 강화학습(Reinforcement Learning, RL)을 통해 학습한 모델로, 뛰어난 추론 성능을 보여줍니다.
RL 과정을 통해 DeepSeek-R1-Zero는 강력하고 흥미로운 다양한 추론 행동을 자연스럽게 학습하지만, 가독성이 낮거나 언어 혼합 문제가 발생하는 등의 한계에 직면합니다.
이러한 문제를 해결하고 추론 성능을 더욱 향상하기 위해 연구자들은 RL 단계 이전에 다단계 학습과 초기 데이터(cold-start data)를 활용한 DeepSeek-R1을 도입했습니다.
DeepSeek-R1-Zero는 강화학습(RL)의 학습 비용 절감을 위해 그룹 상대 정책 최적화(GRPO, Group Relative Policy Optimization) 알고리즘을 채택하였습니다.
GRPO는 정책 모델과 동일한 크기의 평가 모델(Critic Model)을 제거하고, 그룹 점수(Group Scores)를 기반으로 학습하는 방식입니다.
또한, 강화학습의 최적화 방향을 결정하는 보상 모델링에 대해서는 다음과 같은 2가지 규칙 기반 보상 시스템을 도입하였습니다:
- 정확성 보상(Accuracy Rewards): 수학 문제의 경우, 모델은 결과를 특정 형식(예: 박스 안에 최종 답)으로 제공하여 정확성을 신뢰할 수 있게 평가합니다. 유사하게, LeetCode 문제에서는 컴파일러를 통해 사전 정의된 테스트 케이스로 피드백을 생성합니다.
- 형식 보상(Format Rewards): 모델이 사고 과정을 <think> 및 </think> 태그 사이에 배치하도록 강제합니다.
신경 보상 모델(neural reward model)은 대규모 RL 과정에서 보상 해킹(reward hacking)에 취약하며, 추가 학습 자원을 필요로 하기 때문에 적용하지 않았습니다.
DeepSeek-R1-Zero 모델은 초기 학습 단계에서 평균 pass@1 점수가 15.6%였으나, 학습 후 71.0%까지 도달하며 OpenAI’s o1-0912 모델과 비슷한 성능을 보여주었습니다.
특히, 다수결 투표(Majority Voting)를 적용하면, AIME 벤치마크에서 성능이 71.0%에서 86.7%로 증가하며 OpenAI-o1-0912를 능가합니다.
이 결과를 통해 강화학습 알고리즘이 모델 성능을 최적화하는데 얼마나 효과적인지를 확인할 수 있습니다.
또한, DeepSeek-R1-Zero의 자기 진화 과정(Self-Evolution Process)은 RL이 모델의 추론 능력을 자율적으로 향상시키는 방법을 잘 보여줍니다.
지도학습 단계의 영향을 배제하고 기본 모델에서 RL을 시작함으로써, 모델의 발전 과정을 명확히 관찰할 수 있었습니다.
학습 과정에서 DeepSeek-R1-Zero는 더 긴 사고 시간을 활용하여 점점 더 복잡한 추론 작업을 해결하는 능력을 자연스럽게 습득했습니다.
이 계산 과정은 수백에서 수천 개의 추론 토큰 생성을 포함하며, 모델이 사고 과정을 더 깊이 탐구하고 개선할 수 있도록 합니다.
흥미로운 점은 DeepSeek-R1-Zero의 자기 진화과정(Self-evolution Process) 중 발생한 '깨달음의 순간(Aha Moment)'입니다.
이 시점에서 DeepSeek-R1-Zero는 문제를 재평가하고 초기 접근 방식을 수정하는 데 더 많은 사고 시간을 할당하는 법을 학습합니다.
이는 모델의 성장하는 추론 능력을 보여줄 뿐만 아니라 RL이 예상치 못한 정교한 결과를 도출할 수 있음을 입증합니다.
"깨달음의 순간(Aha Moment)"은 단순히 모델뿐만 아니라 이를 관찰하는 연구자들에게도 중요한 통찰을 제공합니다.
이 현상은 RL의 잠재력을 보여주며, 보다 자율적이고 적응적인 모델 개발을 위한 길을 열어줍니다.
DeepSeek-R1: 초기 데이터를 활용한 강화학습 (Reinforcement Learning with Cold Start)
DeepSeek-R1은 DeepSeek-R1-Zero의 한계를 보완하기 위해 소규모의 초기 데이터(Cold-Start Data)를 활용합니다.
이러한 초기 데이터는 DeepSeek-R1-Zero 모델에서 관측된 초기 학습 단계에서 불안정성을 줄이고, 응답 가독성을 높이는데 기여합니다.
초기 학습 데이터(Cold-Start Data)는 수천여건의 소규모 데이터셋으로, 긴 생각의 사슬(CoT, Chain-of-Thoughts) 데이터로, 다음과 같은 과정을 통해 수집 및 정제하였습니다:
- 긴 CoT 예제를 포함하여 퓨-샷(few-shot) 프롬프트 사용
- 상세한 답변(반성 및 검증 포함)을 생성하도록 모델에 직접 프롬프트 제공
- 읽기 쉬운 형식으로 DeepSeek-R1-Zero의 출력을 수집
- 사람 검토자가 결과를 후처리(post-process)하여 정제
이렇게 수집한 수천 개의 초기 데이터로 DeepSeek-V3-Base 모델을 미세조정(Finetuning)하여 RL의 시작점으로 활용용했습니다.
DeepSeek-R1-Zero와 비교했을 때 초기 데이터가 가진 주요 이점은 다음과 같습니다:
- 가독성 (Readability): DeepSeek-R1-Zero의 주요 한계 중 하나는 내용이 읽기에 적합하지 않다는 점입니다. 출력은 여러 언어가 혼합되거나, 사용자를 위한 강조 표시가 부족한 마크다운 형식을 따르지 않을 수 있습니다. 반면, DeepSeek-R1의 초기 데이터를 생성할 때는 각 응답 끝에 요약을 포함하고, 가독성이 떨어지는 응답을 제거했습니다. 예를 들어, 출력 형식을 다음과 같이 정의했습니다:
- |special_token|<reasoning_process>|special_token|<summary>, 여기서 <reasoning_process>는 쿼리에 대한 CoT이고, <summary>는 추론 결과를 요약하는 데 사용됩니다.
- 잠재력 (Potential): 인간의 사전 지식을 활용해 초기 데이터를 신중하게 설계함으로써, DeepSeek-R1-Zero보다 더 나은 성능을 관찰할 수 있었습니다. 특히, 연구자들은 반복적인 학습(iterative training)이 추론 모델의 향상을 위한 더 나은 방법이라고 믿고 있습니다.
초기 데이터를 사용해 DeepSeek-V3-Base를 미세 조정한 후에는 DeepSeek-R1-Zero와 동일한 대규모 강화학습 과정을 적용합니다.
이 때 강화학습 프롬프트가 여러 언어를 포함할 때 CoT에서 언어 혼합 현상이 종종 관찰되어, 이를 완화하기 위해 언어 일관성 보상(Language Consistency Reawrd)를 도입하였습니다.
성능은 약간 저하될 수 있지만, 인간의 선호도와 일치하기 때문에 출력이 더 읽기 쉽게 만들어졌습니다.
이후, 추론에 중심을 둔 강화학습 외, 글쓰기 및 역할 수행(Role-playing) 및 기타 일반적인 작업에서 모델의 능력을 향상하기 위해 추론 데이터(Reasoning Data)와 비추론 데이터(Non-Reasoning Data)를 포함한 80만개 가량의 데이터셋으로 2 에폭(epoch)만큼 파인튜닝을 하였습니다.
마지막으로 모델을 인간 선호도와 더 잘 정렬시키기 위해, 모든 시나리오에 대한 강화학습(Reinforcement Learning for all Scenarios)을 수행하였습니다.
이는 모델의 유용성(helpfulness)과 무해성(harmlessness)을 개선하면서 동시에 추론 능력을 세밀하게 조정하기 위한 것으로, 보상 신호와 다양한 프롬프트 분포를 결합하여 모델을 학습합니다.
DeepSeek-V3 파이프라인을 기반으로, 선호도 쌍(preference pairs)과 학습 프롬프트의 유사한 분포를 채택하였습니다.
이렇게 다양한 보상 신호와 데이터 분포를 통합함으로써, DeepSeek-R1 모델은 추론 능력이 뛰어나면서도 유용성과 무해성을 우선시하게 되었습니다.
증류: 소규모 모델에 추론 능력 부여 (Distillation: Empower Small Models with Reasoning Capability)
뛰어난 추론 능력을 갖는 효율적인 소규모 모델 구축을 위해, DeepSeek-R1에서 학습된 지식을 소형 모델(Qwen 및 Llama 시리즈)에 증류(Distillation)하였습니다.
증류된 모델(Distilled Models)에서는 강화학습(RL) 단계를 포함하지 않고 지도학습 기반의 파인튜닝(SFT, Supervised Fine-Tuning)만 적용했습니다.
RL을 포함하면 모델 성능이 상당히 향상될 가능성이 있지만, 여기서는 증류 기법의 효과를 입증하는 데 중점을 두었습니다.
결과적으로 간단한 SFT 증류 방법만으로도 소규모 모델이 대규모 모델의 추론 패턴을 학습하도록 하여 소규모 모델의 추론 능력을 크게 향상시킬 수 있음을 확인했습니다.
Qwen2.5-32B 모델은 AIME 2024에서 pass@1 점수 72.6%를 기록하며 기존의 QwQ-32B-Preview 모델을 크게 능가했습니다.
DeepSeek-R1은 다양한 벤치마크(MMLU, MMLU-Pro, GPQA Diamond)에서 DeepSeek-V3보다 우수한 성능을 보여주었습니다.
특히 STEM 관련 질문에서 성능이 크게 향상되었습니다.
또한, DeepSeek-R1은 FRAMES와 같은 장문 맥락 의존형 QA 작업에서 강력한 문서 분석 능력을 보여주며, AI 기반 탐색 및 데이터 분석 작업에서 모델의 가능성을 시사합니다:
또한, 증류 과정을 통해 학습한 소규모 모델에 대해서도 효율적이고 뛰어난 성능을 확인하였습니다.
DeepSeek-R1-Distill-Qwen-7B는 GPT-4o-0513 같은 대규모 모델을 앞섰으며, DeepSeek-R1-Distill-Qwen-14B는 QwQ-32B-Preview를 모든 평가 지표에서 능가했습니다.
DeepSeek-R1-Distill-Qwen-32B와 DeepSeek-R1-Distill-Qwen-70B는 대부분의 벤치마크에서 OpenAI-o1-mini를 크게 능가하며 증류의 잠재력을 입증했습니다.
이러한 실험을 통해 증류된 모델은 대규모 RL을 통해 훈련된 동일 크기의 모델보다 높은 성능을 보이는 것을 확인하였습니다.
이는 증류가 소규모 모델을 더 경제적이고 효과적으로 학습시킬 수 있는 강력한 방법임을 강조합니다.
논의와 결론, 한계 및 향후 과제
증류와 강화학습의 비교 (Distillation v.s. Reinforcement Learning)
증류된 모델은 소규모 모델에서도 뛰어난 성능을 발휘할 수 있는 강력한 방법임을 입증했습니다.
실험 결과, DeepSeek-R1에서 증류된 소규모 모델은 대규모 RL을 통해 훈련된 동일 크기의 모델보다 더 높은 성능을 보였습니다.
증류는 소규모 모델이 강력한 추론 능력을 갖추도록 경제적이고 효율적으로 학습할 수 있는 방법을 제공합니다.
대규모 RL은 막대한 계산 자원을 필요로 하며, 증류 방식보다 낮은 성능을 낼 가능성이 있습니다.
특히, DeepSeek-R1-Distill-Qwen-32B는 강화학습으로 학습된 Qwen-32B 모델을 모든 벤치마크에서 능가했습니다.
이는 대규모 모델에서 학습된 고급 추론 패턴이 증류 과정을 통해 소규모 모델로 효과적으로 전달될 수 있음을 시사합니다.
증류는 대규모 모델의 능력을 소규모 모델로 전달하면서 비용을 절감하는 데 중요한 역할을 합니다.
그러나 높은 지능 수준을 달성하기 위해서는 여전히 강력한 기본 모델과 대규모 RL이 필요할 수 있습니다.
이는 소규모 모델 개발이 경제성과 성능 간의 균형을 맞출 수 있도록 한다는 점에서 중요합니다.
증류 방식은 이후의 연구 커뮤니티에서도 중요한 학습 전략으로 자리잡을 것으로 기대됩니다.
실패 사례와 한계점 (Unsuccessful Attempts)
초기 연구에서는 프로세스 보상 모델(Process Reward Model, PRM)과 몬테카를로 트리 탐색(Monte Carlo Tree Search, MCTS)이 활용되었으나 성공적이지 못했습니다.
PRM은 모델이 추론 작업을 단계별로 해결하도록 유도하는 데 적합하지만, 실제 구현에서는 한계가 있었습니다.
특히, 세분화된 단계를 정의하거나 중간 단계의 정확성을 판단하는 것이 어려웠습니다.
자동화된 주석(annotation)은 신뢰할 수 없는 결과를 초래했으며, 수작업 주석은 확장성에 제한을 받았습니다.
또한, PRM은 보상 해킹(reward hacking)의 위험이 높았으며, 보상 모델을 재훈련하려면 추가적인 계산 비용이 들었습니다.
MCTS의 경우, AlphaGo의 성공 사례에서 영감을 받았지만, 언어 모델의 토큰 생성 과정에서 탐색 공간이 지나치게 커져 적용에 실패했습니다.
MCTS는 답변을 작은 단계로 나눠 체계적으로 탐색하려 했으나, 지역 최적점(local optima)에 갇히는 문제가 있었습니다.
또한, 가치 모델(value model)을 훈련해 탐색 품질을 높이려 했으나, 토큰 생성의 복잡성으로 인해 성능이 제한되었습니다.
이러한 시도는 추론 작업에서 모델의 성능을 향상시키기 위해 대체적인 접근 방식이 필요함을 보여줍니다.
결론 (Conclusion)
DeepSeek-R1은 추론 능력을 강화하기 위해 강화학습(RL)을 활용한 연구에서 중요한 진전을 이뤘습니다.
DeepSeek-R1-Zero는 초기 데이터 없이 순수 RL 접근 방식만으로 강력한 성능을 달성했습니다.
반면, DeepSeek-R1은 초기 데이터와 반복적인 RL 파이프라인을 결합하여 OpenAI-o1-1217에 필적하는 성과를 기록했습니다.
특히, DeepSeek-R1은 수학, 코딩, 장문 맥락 의존형 QA 작업에서 탁월한 성능을 보여주었습니다.
또한, 증류 과정을 통해 소규모 모델에서도 대규모 모델의 고급 추론 패턴을 재현할 수 있음을 입증했습니다.
증류된 DeepSeek-R1 모델은 AIME 2024, MATH-500, GPQA Diamond와 같은 벤치마크에서 GPT-4o와 Claude-3.5-Sonnet을 능가했습니다.
이 연구는 강화학습과 증류를 결합하여 대규모 모델의 능력을 소규모 모델로 전달할 수 있는 경제적이고 효율적인 방법을 제시했습니다.
연구 커뮤니티는 이 연구를 통해 더 많은 도메인과 작업에 대한 추론 모델을 개발할 수 있는 새로운 가능성을 발견할 수 있습니다.
향후에는 이러한 접근 방식을 통해 더 넓은 분야에서 AI 모델의 능력을 확장할 수 있을 것으로 기대됩니다.
DeepSeek-R1은 LLM의 추론 능력을 강화하는 데 있어 중요한 이정표로 평가됩니다.
한계 및 향후 과제 (Limitations and Future Work)
현재 DeepSeek-R1은 몇 가지 한계를 가지고 있으며, 이를 해결하기 위해 향후 연구 방향이 설정되었습니다.
첫째, 함수 호출, 멀티턴 대화, 복잡한 역할 수행, JSON 출력과 같은 작업에서 DeepSeek-V3에 미치지 못합니다.
이러한 한계를 극복하기 위해 더 긴 체인 오브 쏘트(CoT)를 활용하여 복잡한 작업에서 성능을 향상시키는 방법을 탐구할 계획입니다.
둘째, 언어 혼합 문제가 있습니다. DeepSeek-R1은 영어와 중국어를 중심으로 최적화되어 있어, 다른 언어 쿼리에 대한 처리에서 영어를 사용하는 경향이 있습니다.
이러한 문제를 해결하기 위해 다국어 지원을 강화할 계획입니다.
셋째, 프롬프트에 민감하게 반응하여 소수 샷(few-shot) 설정에서 성능이 저하되는 문제가 있습니다.
이를 개선하기 위해 프롬프트 민감도를 낮추고 다양한 설정에서 일관된 성능을 유지하는 방법을 모색할 예정입니다.
마지막으로, 소프트웨어 엔지니어링 작업에서는 대규모 RL 적용이 제한적이었으며, 관련 데이터의 부족으로 인해 성능 개선이 미미했습니다.
향후에는 비동기 평가(asynchronous evaluation) 및 거부 샘플링(reject sampling)을 도입해 이러한 문제를 해결할 것입니다.
이 모든 과제는 DeepSeek-R1의 성능을 더욱 향상시키고, 더 넓은 도메인과 작업에서 활용할 수 있는 AI 모델로 발전시키기 위한 기반이 될 것입니다.
https://discuss.pytorch.kr/t/deepseek-r1-sft-rl/5929
DeepSeek-R1, 지도학습 기반 파인튜닝(SFT) 대신, 강화학습(RL)으로 추론 능력을 개선하여 추론 능력을
연구 배경 및 소개 대규모 언어 모델(LLM, Large Language Model)은 최근 몇 년간 비약적으로 발전하며 인공지능(AI) 연구에서 핵심적인 위치를 차지하고 있습니다. 특히 OpenAI, Anthropic, Google 등의 연구 기
discuss.pytorch.kr
https://arxiv.org/abs/2501.12948
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
We introduce our first-generation reasoning models, DeepSeek-R1-Zero and DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step, demonstrates remarkable reasonin
arxiv.org
'AI 논문 > AI trend research' 카테고리의 다른 글
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training (0) | 2025.02.14 |
---|---|
The Illustrated DeepSeek-R1 (0) | 2025.02.01 |
microsoft의 TRELLIS (0) | 2025.01.24 |
Transformer^2: Self-adaptive LLMs (0) | 2025.01.22 |
Train 400x faster Static Embedding Models with Sentence Transformers (0) | 2025.01.20 |