A Review of DeepSeek Models' Key Innovative Techniques

1. 전체 요약
1. DeepSeek 모델의 주요 기술
2. 연구의 시사점 및 향후 과제
결론
2. 요약
3. 서론
2.1 다중 헤드 잠재 어텐션(Multi-Head Latent Attention)
2.1.1 표준 다중 헤드 어텐션 (Standard Multi-Head Attention)
2.1.2 Low-Rank Key-Value Joint Compression
2.1.3 Decoupled Rotary Position Embedding
2.2 Mixture of Experts
2.2.1 세분화된 전문가 분할 (Fine-Grained Expert Segmentation)
2.2.2 공유 전문가 격리 (Shared Expert Isolation)
2.2.3 Load Balancing
2.3 Multi-Token Prediction
2.4 알고리즘, 프레임워크 및 하드웨어의 공동 설계
2.4.1 DualPipe
2.4.2 FP8 혼합 정밀도 훈련 (FP8 Mixed Precision Training)
2.5 그룹 상대적 정책 최적화 (Group Relative Policy Optimization, GRPO)
PPO의 목적 함수
2.5.2 GRPO의 이점 추정 (Advantage Estimation in GRPO)
2.5.3 GRPO의 목적 함수
2.6 사후 훈련(Post-Training): 기반 모델에 대한 강화 학습
2.6.1 순수 강화 학습 (Pure Reinforcement Learning)
2.6.2 콜드 스타트 강화 학습 (Reinforcement Learning with Cold Start)
3 논의(Discussions)
4 결론(Conclusion)

1. 전체 요약

이 논문은 DeepSeek-V3 및 DeepSeek-R1 모델이 기존 대형 언어 모델(LLM)과 비교하여 우수한 성능을 어떻게 달성했는지를 분석합니다.

특히, OpenAI 및 Anthropic과 같은 기업의 폐쇄형 모델과 비교할 때 훨씬 적은 학습 비용으로 유사한 성능을 보이는 것이 특징입니다. 논문에서는 다음과 같은 핵심 기술을 다룹니다.

1. DeepSeek 모델의 주요 기술

(1) Multi-Head Latent Attention (MLA)

기존 Multi-Head Attention (MHA) 구조의 단점을 개선하여 KV 캐시(KV Cache) 메모리 사용량을 줄이면서 성능을 유지하는 방식.
저차원 행렬 분해를 활용한 Low-Rank Key-Value Joint Compression 기술 도입.

(2) Mixture of Experts (MoE)

모델 내 일부 뉴런(전문가)만 활성화하는 방식으로 연산량을 줄이고 성능을 유지.
중요한 입력에 대해 특정 전문가 네트워크가 활성화되도록 최적화.

(3) Multi-Token Prediction

기존의 단일 토큰 예측 방식이 아니라 여러 개의 토큰을 동시에 예측하여 추론 속도를 향상.

(4) 알고리즘, 프레임워크, 하드웨어 공동 설계

모델 최적화를 위해 소프트웨어 및 하드웨어를 동시에 고려하여 효율적인 학습 및 추론을 가능하게 함.

(5) Group Relative Policy Optimization (GRPO)

기존 Reinforcement Learning with Human Feedback (RLHF) 방식보다 효율적으로 보상을 최적화하는 강화학습 기법.

(6) 강화학습 기반의 순수 후처리 및 반복적 학습

지도학습(SFT)과 강화학습(RL)을 번갈아 적용하여 모델 성능을 지속적으로 개선.

2. 연구의 시사점 및 향후 과제

논문에서는 DeepSeek 모델이 기존 GPT 계열 모델과 경쟁할 수준의 성능을 달성했음에도 불구하고 몇 가지 연구 과제가 남아 있음을 언급합니다.

MLA와 MoE의 조합 최적화: 더 낮은 연산 비용으로 높은 성능을 유지하는 방안 필요.
GRPO의 추가 연구: 더 효율적인 보상 구조 설계 가능성 탐색.
Multi-Token Prediction의 한계 분석: 특정 작업에서 예측 정확도를 어떻게 유지할 것인지 고민.

결론

DeepSeek 모델은 MLA, MoE, Multi-Token Prediction 등의 혁신 기술을 결합하여 적은 학습 비용으로도 기존 폐쇄형 LLM과 유사한 성능을 달성했습니다. 논문은 이러한 기술적 성과를 분석하면서도, 여전히 해결해야 할 연구 과제가 있음을 지적하며 향후 연구 방향을 제시합니다.

----------------------------------------------------------------------------------------------------------------------------------------------------------------

2. 요약

DeepSeek-V3와 DeepSeek-R1은 범용 작업 및 추론을 위한 선도적인 오픈소스 대형 언어 모델(LLM)로, OpenAI와 Anthropic과 같은 기업의 최첨단 폐쇄형 모델과 동등한 성능을 발휘하면서도 훨씬 적은 훈련 비용만으로 이를 달성하고 있습니다.

DeepSeek 모델의 성공을 이끈 주요 혁신적 기법을 이해하는 것은 LLM 연구 발전에 있어 매우 중요합니다.

본 논문에서는 이러한 모델들이 뛰어난 성능과 효율성을 갖출 수 있었던 핵심 기술들을 검토합니다.

여기에는 트랜스포머 아키텍처의 정교한 개선, 다중 헤드 잠재 어텐션(Multi-Head Latent Attention) 및 전문가 혼합(Mixture of Experts)과 같은 혁신적인 기법, 다중 토큰 예측(Multi-Token Prediction), 알고리즘·프레임워크·하드웨어의 공동 설계, 그룹 상대 정책 최적화(Group Relative Policy Optimization) 알고리즘, 순수 강화 학습을 활용한 사후 훈련, 그리고 지도 학습 기반 미세 조정과 강화 학습을 번갈아 수행하는 반복적 훈련 방식 등이 포함됩니다.

또한, 우리는 이 분야에서 아직 해결되지 않은 몇 가지 개방형 질문을 제시하고, 빠르게 발전하는 LLM 연구에서 새로운 연구 기회들을 조명합니다.

3. 서론

2022년 말 ChatGPT의 등장 [Ope25a]은 대형 언어 모델(LLM) 연구의 새로운 시대를 열었습니다.

이후 LLM은 빠르게 발전했으며, GPT [Ope25b] 및 Claude [Ant25]와 같은 모델이 뛰어난 성능을 입증하였습니다.

LLaMA [GDJ+24]와 같은 오픈소스 LLM도 일부 지표에서 경쟁력 있는 성과를 거두었지만, 전체적인 성능에서는 여전히 폐쇄형 모델에 뒤처져 있습니다.

2025년 1월, DeepSeek은 DeepSeek-V3 [LFX+24] 및 새롭게 출시된 DeepSeek-R1 모델 [GYZ+25]을 공개하며 시장을 뒤흔들고 큰 주목을 받았습니다 [Reu25].

이 모델들은 최첨단 GPT 모델과 동등한 성능을 발휘하면서도 훈련 자원이 훨씬 적게 소요되는 특징을 가지고 있습니다.

이러한 모델들의 놀라운 효율성과 성능을 뒷받침하는 핵심 기술을 이해하는 것은 LLM 연구 발전에 있어 매우 중요한 과제입니다.

본 논문에서는 DeepSeek 모델의 성공을 이끈 주요 기술을 검토합니다.

여기에는 트랜스포머 아키텍처의 정교한 개선—특히 다중 헤드 잠재 어텐션(Multi-Head Latent Attention, MLA)과 전문가 혼합(Mixture of Experts, MoE);

다중 토큰 예측(Multi-Token Prediction); 알고리즘,

프레임워크 및 하드웨어의 공동 설계;

그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO) 강화 학습 알고리즘;

그리고 순수 강화 학습 및 지도 학습 기반 미세 조정(Supervised Fine-Tuning, SFT)과 강화 학습을 번갈아 수행하는 다단계 반복 훈련과 같은 사후 훈련 기법이 포함됩니다.

또한, 우리는 DeepSeek의 기술 보고서나 소거 연구(ablation study)에서 다루어지지 않은 몇 가지 문제를 제기하고, 새로운 연구 기회를 조명합니다.

이후 본 논문에서는 2장에서 앞서 언급한 혁신적인 기술에 대해 간결하면서도 심층적인 리뷰를 제공하고, 3장에서 해결되지 않은 문제들과 향후 연구 방향을 논의한 후, 4장에서 결론을 맺겠습니다.

2.1 다중 헤드 잠재 어텐션(Multi-Head Latent Attention)

KV 캐시(KV cache)는 트랜스포머의 다중 헤드 어텐션(Multi-Head Attention, MHA) 블록에서 추론 속도를 높이기 위해 사용되는 기술로, 중간 키(key)와 값(value)을 저장하여 반복 연산을 줄여줍니다.

그러나 장문의 문맥을 처리하는 LLM에서는 KV 캐시의 높은 메모리 사용량이 성능 저하의 병목이 될 수 있습니다.

이 문제를 해결하기 위한 한 가지 접근법은 어텐션 헤드의 수를 줄이는 것으로, 이는 다중 쿼리 어텐션(Multi-Query Attention, MQA) [Sha19] 및 그룹 쿼리 어텐션(Group-Query Attention, GQA) [ALTDJ+23]과 같은 기법에서 활용되었습니다.

하지만 이러한 방식은 기존 MHA보다 성능이 떨어지는 문제가 있었습니다.

이후 DeepSeek-V2 [LFW+24]에서는 혁신적인 어텐션 메커니즘인 **다중 헤드 잠재 어텐션(Multi-Head Latent Attention, MLA)**이 도입되었습니다.

MLA는 기존 방식보다 훨씬 적은 KV 캐시를 사용하면서도 더 높은 성능을 달성하는 특징을 갖고 있습니다.

2.1.1 표준 다중 헤드 어텐션 (Standard Multi-Head Attention)

표준 다중 헤드 어텐션(Multi-Head Attention, MHA) [VSP+17]에서는 쿼리(query), 키(key), 값(value)이 프로젝션 행렬

$W^{Q}$ , $W^{K}$ , $W^{V} \in \mathbb{R}^{d_h n_h \times d}$

를 통해 생성됩니다.

여기서 $h_t \in \mathbb{R}^{d}$ 는 $t$ -번째 토큰의 입력이며, 다음과 같이 변환됩니다.

$q_t = W^{Q} h_t, \quad k_t = W^{K} h_t, \quad v_t = W^{V} h_t, \quad q_t, k_t, v_t \in \mathbb{R}^{d_h n_h}$

여기서 $d$ 는 입력 임베딩의 차원, $n_h$ 는 어텐션 헤드(head)의 개수, $d_h$ 는 각 헤드당 차원을 의미합니다.

MHA 메커니즘에서는 $q_t, k_t, v_t$ 를 $n_h$ 개의 헤드로 나누어 각 헤드가 $d_h$ 차원을 갖도록 구성됩니다 [LFW+24, Eq. (4)-(8)]:

각 헤드 $i$ 의 어텐션 출력 $o_{t,i}$ 는 다음과 같이 계산됩니다.

그 후, 모든 헤드의 출력을 합쳐 최종 출력 $u_t$ 를 생성합니다.

여기서 $q_{t,i}, k_{t,i}, v_{t,i} \in \mathbb{R}^{d_h}$ 는 각각 $i$ -번째 헤드의 쿼리, 키, 값을 나타내며, $W^{O} \in \mathbb{R}^{d \times d_h n_h}$ 는 출력 프로젝션 행렬입니다.

추론 과정에서는 각 토큰이 KV 캐시를 필요로 하며, 그 크기는 $2n_h d_h l$ 이 됩니다.

여기서 $l$ 은 트랜스포머 레이어의 개수를 의미합니다.

2.1.2 Low-Rank Key-Value Joint Compression

MLA의 핵심 아이디어는 프로젝션 행렬을 두 개의 저차원 행렬로 분해하는 것입니다:

$W = W_{U} W_{DKV}$

여기서 $W_{DKV} \in \mathbb{R}^{d_c \times d}$ 는 키와 값 모두에 대한 다운 프로젝션 행렬이고, $W_{U} \in \mathbb{R}^{d_h n_h \times d_c}$ 는 업 프로젝션 행렬입니다.

또한 $d_c \ll d_h n_h$ 입니다. 다운 프로젝션 행렬은 키와 값을 하나의 잠재 벡터 $c_{KV}$ 로 압축합니다.

[LFW+24, Eq. (9)]에 따르면, $d_c \ll d_h n_h$ 이기 때문에 각 토큰에 대해 $k_t$ 와 $v_t$ 대신 크기 $d_c l$ 인 $c_{KV_t}$ 를 저장하면, 크기 $2 d_h n_h l$ 인 키와 값 전체를 저장하는 것보다 KV 캐시를 크게 줄일 수 있습니다.

키와 값은 잠재 벡터 $c_{KV_t}$ 로부터 다음과 같이 계산됩니다 [LFW+24, Eq. (10)-(11)]:

여기서 $W_{UK}$ , $W_{UV} \in \mathbb{R}^{d_h n_h \times d_c}$ 는 각각 키와 값에 대한 업 프로젝션 행렬을 나타냅니다.

중요한 점은, 추론 중에 $W_{UK}$ 는 $W_Q$ 에 흡수되고, $W_{UV}$ 는 $W_O$ 에 흡수되므로, 우리는 $k_{C_t}$ 와 $v_{C_t}$ 를 명시적으로 계산할 필요가 없다는 것입니다.

MLA의 구조는 그림 1에 나와 있습니다.

게다가, 쿼리에 대한 저차원 압축이 훈련 중 활성화 메모리를 줄이기 위해 적용됩니다 [LFW+24, Eq. (12)-(13)]:

여기서 $c_{Q_t} \in \mathbb{R}^{d'_c}$ 는 쿼리에 대한 압축된 잠재 벡터를 나타내며, $d'c \ll d_h n_h$ 입니다.

또한 $W{DQ} \in \mathbb{R}^{d'c \times d}$ , $W{UQ} \in \mathbb{R}^{d_h n_h \times d'_c}$ 는 각각 다운 프로젝션 행렬과 업 프로젝션 행렬을 나타냅니다.

2.1.3 Decoupled Rotary Position Embedding

DeepSeek-V2는 Rotary Position Embedding (RoPE) [SAL+24]을 사용합니다:

여기서 $\text{RoPE}_{\Theta, j-i}(\cdot)$ 는 RoPE 행렬을 적용하는 연산을 나타내며, $\Theta$ 는 미리 정의된 매개변수이고, $i$ 와 $j$ 는 각각 $i$ 번째와 $j$ 번째 위치를 나타냅니다.

그 결과, $W_U K$ 는 $W_Q$ 에 흡수되지 않으며, 이로 인해 추론 중 계산 비용이 크게 증가합니다.

이 문제를 해결하기 위해, DeepSeek-V2는 RoPE를 쿼리와 키의 별도의 집합으로 분리하는 방법을 제안합니다.

즉, 모든 헤드가 공유하는 다중 헤드 쿼리 $q^R_{t,i} \in \mathbb{R}^{d^R_h}$ 와 키 $k^R_t \in \mathbb{R}^{d^R_h}$ 가 있으며, 여기서 $d^R_h$ 는 분리된 쿼리와 키의 각 헤드 차원입니다.

이 분리 전략은 본질적으로 두 개의 별도 관심(attention) 가중치를 계산한 후 이를 더하는 방식으로 동작합니다. 전체 MLA 계산은 다음과 같습니다 [LFW+24, Eq. (14)-(19)]:

여기서 $W_Q R \in \mathbb{R}^{d^R_h n_h \times d'_c}$ 와 $W_K R \in \mathbb{R}^{d^R_h \times d}$ 는 각각 분리된 쿼리와 키를 생성하는 데 사용되는 행렬을 나타냅니다.

$\text{RoPE}(\cdot)$ 는 RoPE 행렬을 적용하는 연산을 나타내며, 밑줄은 생략된 것입니다.

또한 $[·; ·]$ 는 연결(concatenation) 연산을 나타냅니다.

추론 중에는 분리된 키 $k^R_t$ 가 크기 $d^R_h$ 로 캐시됩니다.

그 결과, 각 토큰은 총 크기 $(d_c + d^R_h)l$ 인 캐시를 요구합니다.

DeepSeek-V2에서는 $d_c = 4d_h$ 이고 $d^R_h = \frac{d_h}{2}$ 이므로, 각 토큰당 KV 캐시 크기는 $\frac{9}{2} d_h l$ 입니다.

MLA가 MHA보다 성능이 뛰어나다고 보고된 바 있습니다 [LFW+24, Table 9].

이는 MLA가 본래 키와 값에 대한 프로젝션 행렬보다 적은 정보를 포함하는 저차원 행렬을 사용한다는 점에서 놀랍습니다.

따라서 이 성능 향상은 원래의 RoPE와는 다른 분리된 RoPE의 도입 덕분일 가능성이 큽니다.

그러나 분리된 RoPE에 대한 실험 연구는 아직 보고되지 않았으므로, 이는 추가 연구를 위한 유망한 방향입니다.

2.2 Mixture of Experts

Mixture of Experts (MoE)는 모델 파라미터를 확장하면서 계산 비용을 줄이기 위해 설계된 아키텍처입니다.

MoE 모델에서는 Transformer의 Feed-Forward Network (FFN) 레이어를 특정 간격마다 MoE 레이어로 교체합니다.

각 MoE 레이어는 여러 명의 전문가(expert)로 구성되며, 모든 전문가들은 표준 FFN과 구조적으로 동일합니다.

토큰은 한 개 또는 두 개의 전문가로 라우팅됩니다 [FZS22, LLX+20]. DeepSeekMoE 아키텍처 [DDZ+24]는 두 가지 주요 혁신을 도입합니다:

세분화된 전문가 분할(fine-grained expert segmentation)과 공유된 전문가 격리(shared expert isolation). 이 혁신들은 기존 MoE를 기반으로 구축되었습니다.

2.2.1 세분화된 전문가 분할 (Fine-Grained Expert Segmentation)

그림 2(a)에 나타난 기존 MoE 아키텍처 위에, 각 FFN은 FFN의 히든 차원을 고르게 나누어 m개의 더 작은 전문가로 분할됩니다.

그 결과, 기존 MoE에서 전문가의 총 수가 N이고, 각 토큰에 대해 활성화되는 전문가의 수가 K일 경우, 세분화된 MoE 아키텍처에서는 총 전문가 수가 mN으로 증가하고, 활성화되는 전문가 수는 mK로 증가하게 됩니다.

이는 그림 2(b)와 같이 세분화된 전문가 분할 전략이 활성화된 전문가의 조합적 유연성을 크게 향상시킴을 보여줍니다.

2.2.2 공유 전문가 격리 (Shared Expert Isolation)

공유된 전문가들은 다양한 컨텍스트에서 공통된 지식을 캡처하는 데 전념하여, 서로 다른 전문가들 간의 파라미터 중복을 줄입니다.

구체적으로, Ks개의 전문가가 공유된 전문가로 예약되며, 각 토큰은 해당 토큰에 라우팅된 전문가 외에 항상 이 공유된 전문가들에게도 할당됩니다.

일정한 계산 비용을 유지하기 위해, 라우팅된 전문가의 총 수 Nr은 mN − Ks로 줄어들고, 각 토큰에 대해 라우팅되는 전문가 수는 mK − Ks로 줄어듭니다.

세분화된 전문가 분할(fine-grained expert segmentation)과 공유 전문가 격리(shared expert isolation)의 새로운 전략을 통해, DeepSeekMoE 아키텍처에서 MoE 레이어는 다음과 같이 정의됩니다 [DDZ+24, Eq. (9)-(11)]:

여기서 $\text{FFN}i(\cdot)$ 는 $i$ -번째 전문가 FFN을 의미하고, $u_l^t \in \mathbb{R}^d$ 는 $l$ -번째 attention 모듈 이후 $t$ -번째 토큰의 은닉 상태이며, $h_l^t \in \mathbb{R}^d$ 는 $l$ -번째 MoE 레이어 이후 $t$ -번째 토큰의 출력 은닉 상태입니다.

$g{i,t}$ 는 $i$ -번째 전문가에 대한 게이트 값을 나타내며, $s_{i,t}$ 는 토큰과 전문가 간의 친화도입니다.

$\text{Topk}(\cdot, K)$ 는 $t$ -번째 토큰에 대해 모든 $N$ 명의 전문가들 사이에서 상위 $K$ 개의 친화도 점수 집합을 제공합니다.

그리고 $e_l^i$ 는 $l$ -번째 레이어에서 $i$ -번째 전문가의 중심점을 나타냅니다.

2.2.3 Load Balancing

자동으로 학습된 라우팅 전략은 부하 불균형 문제에 직면할 수 있습니다.

예를 들어, 일부 전문가만 항상 선택되고 다른 전문가들은 충분히 훈련되지 않거나, 활성화된 전문가들이 여러 장치에 분배되어 장치 간 통신 비용이 크게 발생할 수 있습니다.

이러한 문제들은 부하 균형을 위한 보조 손실 함수로 해결됩니다 [FZS22]. 전문가 수준의 균형 손실은 다음과 같이 공식화됩니다 [DDZ+24, Eq. (12)-(14)]:

여기서 $\alpha$ 는 하이퍼파라미터이고, $N' = mN - K_s$ 및 $K' = mK - K_s$ 로 간단히 표기됩니다.

$1(\cdot)$ 는 지시 함수입니다.

부하가 전문가들 사이에 균등하게 분배되면, $L_{\text{ExpBal}}$ 은 최소화되고, $f_i = 1$ , $P_i = \frac{K'}{N'}$ 가 되어, $\sum_{i=1}^{N'} f_i P_i = N' \cdot 1 \cdot \frac{K'}{N'} = K'$ 가 됩니다.

$f_i$ 와 $P_i$ 의 정규화된 버전인 $f'_i$ 와 $P'_i$ 를 각각 $f'_i = \frac{f_i}{N'}$ , $P'_i = \frac{P_i}{K'}$ 로 정의할 수 있습니다.

이렇게 하면 두 값 모두 확률 분포를 형성합니다.

이 전문가 수준의 손실 공식의 제한점은, $P'_i$ 가 균등하게 분포된 경우, 즉, $P'i = \frac{1}{N'}$ 일 때, $f'i$ 의 어떤 분포에서도 $\sum{i=1}^{N'} f_i \cdot P_i = \sum{i=1}^{N'} f'_i \cdot K' = K'$ 가 된다는 점입니다.

이 경우 보조 손실은 전문가 활용의 균형을 유도하는 데 실패합니다.

만약 $P'_i$ 의 균등 분포가 실제로 $f'_i$ 의 균등 분포를 유도한다면, 손실 함수에 $f_i$ 를 포함하는 것은 중복처럼 보일 수 있습니다.

이 공식이 널리 사용되고 있기 때문에, 이론적 근거를 조사하고 잠재적인 개선 방안을 탐색하는 것이 가치가 있습니다 [FZS22, LFX+24, JZYY24].

전문가 수준의 부하 균형 외에도, 장치 수준 및 통신 부하 균형 [DDZ+24, LFW+24]이 제안되어, 다른 장치들 간의 균형 잡힌 계산과 통신을 보장합니다.

이러한 손실 함수의 공식화는 유사한 패턴을 따릅니다.

보조 손실이 모델 성능을 저하시킬 수 있기 때문에, 부하 균형과 모델 성능 간의 더 나은 균형을 찾기 위해 보조 손실이 없는 부하 균형 전략이 제안됩니다 [WGZ+24].

구체적으로, 각 전문가 $i$ 에 대해 편향 항 $b_i$ 가 친화도 점수 $s_{i,t}$ 에 추가되어 상위 K개의 선택을 결정합니다 [LFX+24, Eq. (16)]:

여기서 $N_r$ 은 라우팅된 전문가의 수를 나타내고, $K_r$ 은 활성화된 라우팅 전문가의 수입니다.

훈련 중에, 전문가가 과부하 상태일 경우 편향 항 $b_i$ 는 $\gamma$ 만큼 감소하고, 전문가가 과부하되지 않은 경우에는 $\gamma$ 만큼 증가합니다.

여기서 $\gamma$ 는 하이퍼파라미터입니다.

편향 항은 상위 K 선택을 위한 용도로만 사용되며, 게이팅 값은 여전히 원래의 친화도 점수 $s_{i,t}$ 를 사용합니다.

이 식에서 $s_{i,t} + b_i$ 는 $\text{Topk}(\cdot)$ 함수의 입력으로 사용되고, $s_{i,t}$ 는 $s_{i,t}$ 가 상위 K에 포함될 경우의 $g'_{i,t}$ 값입니다.

DeepSeek-V3에서는 각 시퀀스 내에서 극단적인 불균형을 피하기 위해 보조 시퀀스 수준의 손실도 사용됩니다 [LFX+24].

2.3 Multi-Token Prediction

DeepSeek-V3는 훈련 성능을 개선하기 위해 Multi-Token Prediction (MTP) [GIR+24]을 사용합니다.

각 토큰에 대해, MTP는 다음 토큰만 예측하는 대신, 인과적 체인에서 $D$ 개의 추가 토큰을 예측합니다.

이는 그림 3에 나와 있는 바와 같습니다.

$D$ 개의 MTP 모듈의 각 깊이 $k$ 에는 공유된 임베딩 레이어와 공유된 출력 헤드, 독립적인 트랜스포머 블록, 그리고 독립적인 선형 투영 레이어가 있습니다.

선형 투영 레이어의 입력은 현재 깊이에서의 임베딩과 이전 깊이에서의 출력 임베딩의 결합입니다.

MTP 훈련 목표인 $L_{\text{MTP}}$ 는 각 깊이 $k \in {1, 2, \cdots, D}$ 에서의 교차 엔트로피 손실 $L^k_{\text{MTP}}$ 의 평균입니다 [LFX+24, Eq. (24)-(25)]:

여기서 $T$ 는 입력 시퀀스의 길이를 나타내고, $t_i$ 는 $i$ 번째 위치의 실제 토큰이며, $P^k_i[t_i]$ 는 깊이 $k$ 에서의 $t_i$ 에 대한 예측 확률을 나타냅니다.

MTP의 장점은 훈련 중 샘플 효율성이 높아져 성능이 향상된다는 점입니다 [GIR+24].

그러나 MTP 모듈로 형성된 인과적 체인은 기존의 다음 토큰 예측을 넘어서는 추가적인 훈련 시간 오버헤드를 발생시키며, 이는 DeepSeek-V3에서 MTP에 대한 소거 연구에서 다루어지지 않은 요소입니다 [LFX+24, Sec. 4.5.1].

2.4 알고리즘, 프레임워크 및 하드웨어의 공동 설계

알고리즘, 프레임워크 및 하드웨어를 공동으로 설계하고 세밀한 엔지니어링 최적화를 통해, DeepSeek-V3는 훈련 효율성을 크게 향상시켰으며 14.8조 개의 토큰에 대한 사전 훈련을 2.788 million H800 GPU 시간 내에 완료했습니다 [LFX+24].

2.4.1 DualPipe

Cross-node 전문가 병렬 처리가 초래하는 통신 오버헤드를 줄이기 위해, 새로운 파이프라인 병렬 처리 알고리즘인 DualPipe [LFX+24]가 도입되었습니다.

이 알고리즘은 개별적인 순방향(forward) 및 역방향(backward) 연산 청크 내에서 계산과 통신을 중첩하여 실행합니다.

알고리즘은 각 청크를 네 개의 구성 요소로 나누며, 특히 역방향 계산 청크는 입력(input)과 가중치(weights) 두 개의 부분으로 추가 분할됩니다 [QWHL23].

이를 통해 **파이프라인 버블(pipeline bubble, 비효율적인 대기 시간)**을 줄일 수 있습니다.

또한, **특정 비율의 GPU SM(Streaming Multiprocessors)**을 통신에 전담시켜, 실행 중 통신이 완전히 숨겨지도록 보장합니다.

이를 통해 사실상 제로(all-to-all) 통신 오버헤드를 달성할 수 있습니다.

DualPipe 알고리즘은 양방향 파이프라인 스케줄링을 활용하여 파이프라인의 양 끝에서 데이터를 공급하는 방식으로 작동하며, 이는 그림 4에 설명되어 있습니다.

DualPipe는 모델 파라미터의 두 개 사본을 유지해야 하므로 추가적인 메모리 소비가 발생합니다.

하지만 **양방향 처리(bidirectional processing)**가 반드시 필요한 것은 아니며, [QWHL25]에서 설명된 "cut-in-half" 절차를 적용하면 이를 제거할 수 있습니다.

2.4.2 FP8 혼합 정밀도 훈련 (FP8 Mixed Precision Training)

DeepSeek-V3는 정확도를 유지하면서도 효율적인 훈련을 가능하게 하는 혼합 정밀도(Mixed Precision) 프레임워크를 도입했습니다.

훈련 속도를 높이기 위해, 대부분의 주요 연산 커널—즉, 일반 행렬 곱셈(GEMM, General Matrix Multiplication)—을 FP8 (8비트 부동소수점) 정밀도로 구현했습니다 [DLBZ22, PWW+23, FCBS24].

FP8 형식은 연산 효율성 면에서 뛰어나지만, DeepSeek-V3는 일부 연산이 저정밀 연산에 민감하기 때문에 원래의 높은 정밀도를 유지해야 하는 연산자들을 유지합니다.

이러한 연산자에는 다음이 포함됩니다:

임베딩 모듈 (Embedding Module)
출력 헤드 (Output Head)
MoE Gating 모듈 (Mixture of Experts Gating Modules)
정규화 연산자 (Normalization Operators)
어텐션 연산자 (Attention Operators)

또한, 이 프레임워크는 FP8 포맷의 동적 범위를 확장하기 위해 **세밀한 양자화 전략(Fine-Grained Quantization Strategy)**을 활용합니다.

타일 단위 그룹화(Tile-wise Grouping): $1 × N_c$ 요소로 구성
블록 단위 그룹화(Block-wise Grouping): $N_c × N_c$ 요소로 구성
여기서, $N_c$ 는 채널 크기이며, DeepSeek-V3 모델에서는 $N_c = 128$ 로 설정됩니다.

FP8 저정밀 GEMM 연산의 정확도는 고정밀(accumulation precision) 누적 방식에 크게 의존합니다.

DeepSeek-V3는 **고정밀 연산을 수행하기 위해 CUDA 코어로 승격(promoting to CUDA Cores)**하는 전략을 적용합니다.

즉, 일정 주기마다 FP32 레지스터로 중간 결과를 복사하여 FP32 전체 정밀도로 누적(accumulation)하는 방식을 사용합니다.

2.5 그룹 상대적 정책 최적화 (Group Relative Policy Optimization, GRPO)

그룹 상대적 정책 최적화(GRPO) [SWZ+24]는 Proximal Policy Optimization(PPO) [SWD+17]의 효율적이고 효과적인 변형이다.

GRPO는 PPO에서 가치 함수 근사(Value Function Approximation)를 제거하고, 이점을 직접 추정하여 메모리 사용량을 크게 줄인다.

대규모 언어 모델(LLM)에서는 일반적으로 마지막 토큰에만 보상이 할당되기 때문에, PPO에서 가치 함수 학습이 어려운 문제가 있다.

하지만 단순화된 GRPO는 이와 유사한 성능을 유지하면서도 더 효율적으로 동작할 수 있다.

PPO의 목적 함수

보다 구체적으로, PPO는 다음과 같은 목적 함수를 최대화한다 [SWZ+24, Eq. (1)]:

여기서:

$q, o$ : 질문(Question)과 출력(Output)
$\pi_{\theta}$ : 현재 정책(Current Policy)
$\pi_{\theta_{\text{old}}}$ : 이전 정책(Old Policy)
$\epsilon$ : 클리핑(Clipping)과 관련된 하이퍼파라미터
$A_t$ : 보상과 학습된 가치 함수를 사용하여 계산된 이점(Advantage)

2.5.2 GRPO의 이점 추정 (Advantage Estimation in GRPO)

PPO와 달리 GRPO는 별도의 가치 함수(Value Function)를 학습하지 않고, 대신 **이점을 직접 추정(Direct Advantage Estimation)**한다.

이를 위해, 이전 정책 $\pi_{\theta_{\text{old}}}$ 에서 생성된 $G$ 개의 출력 집합 ${ o_1, o_2, \dots, o_G }$ 을 샘플링하고, 보상 모델(Reward Model)을 사용해 이에 대한 보상 벡터 $r = { r_1, r_2, \dots, r_G }$ 을 계산한다.

이점 추정 방법에는 **출력 감독(Output Supervision)**과 과정 감독(Process Supervision) 두 가지가 있다:

출력 감독(Output Supervision)

각 출력 $o_i$ 의 마지막에 보상을 제공하며, 모든 토큰의 이점을 동일한 정규화된 보상으로 설정한다.
$\hat{A}_{i,t}$ 는 아래와 같이 정의된다:

과정 감독(Process Supervision)

각 중간 단계에서 보상을 제공하며, 이후 단계에서 얻은 정규화된 보상의 합을 이용하여 각 토큰의 이점을 계산한다.

2.5.3 GRPO의 목적 함수

GRPO는 다음 목적 함수를 최대화한다 [SWZ+24, Eq. (3)]:

여기서:

$\pi_{\text{ref}}$ : 기준 정책 모델(Reference Policy Model), 일반적으로 초기 기본 모델(Base Model) 또는 지도 학습된 미세 조정(SFT) 모델이 사용됨
마지막 항 $D_{\text{KL}} (\pi_{\theta} || \pi_{\text{ref}})$ : KL 발산(Kullback-Leibler Divergence)을 사용하여 현재 정책이 기준 정책과 너무 많이 벗어나지 않도록 규제하는 역할
$\beta$ : KL 발산의 가중치를 조정하는 하이퍼파라미터

2.6 사후 훈련(Post-Training): 기반 모델에 대한 강화 학습

2.6.1 순수 강화 학습 (Pure Reinforcement Learning)

DeepSeek-R1-Zero [GYZ+25]는 기반 모델 DeepSeek-V3-Base를 활용하여 순수 강화 학습(RL)만으로 훈련된 모델이며, 지도 학습 미세 조정(SFT) 데이터를 전혀 사용하지 않는다.

강화 학습 과정에서 DeepSeek-R1-Zero의 성능은 지속적으로 향상되며, 반성적 사고(reflection)와 대체 접근법 탐색과 같은 추론 방식(reasoning behavior)이 자연스럽게 형성된다.

이는 순수 강화 학습만으로도 모델이 학습하고 일반화할 수 있는 능력이 있음을 보여준다.

DeepSeek-R1-Zero는 섹션 2.5에서 설명한 GRPO 알고리즘을 사용하며, 보상 함수는 다음과 같은 두 가지 유형의 보상을 포함한다:

정확도 보상(Accuracy Reward): 모델 응답의 정확성을 평가
형식 보상(Format Reward): 모델이 사고 과정을 <think> 및 </think> 태그로 감싸도록 유도

또한, 모델이 먼저 사고 과정을 생성한 후 최종 답변을 제시하도록 유도하는 훈련 템플릿이 설계되었다.

순수 강화 학습을 통해 DeepSeek-R1-Zero는 우수한 성능을 달성했지만, 가독성이 낮거나 언어 혼합(Language Mixing) 문제가 발생하는 한계가 있었다.

이러한 문제를 해결하고 모델을 더욱 발전시키기 위해 DeepSeek-R1 [GYZ+25]이 도입되었으며, 이는 **SFT와 RL을 번갈아 가며 수행하는 반복적인 훈련 방식(iterative training approach)**을 사용한다.

2.6.2 콜드 스타트 강화 학습 (Reinforcement Learning with Cold Start)

DeepSeek-R1의 훈련 파이프라인은 총 네 가지 단계로 구성된다 [GYZ+25]:

콜드 스타트(Cold Start)
- RL 초기 학습 단계에서는 불안정성이 높기 때문에 이를 완화하기 위해 수천 개의 장기 Chain-of-Thought (CoT) [WWS+22] 예제를 수집하여 DeepSeek-V3-Base를 미세 조정한다.
- 이를 통해 이후 강화 학습의 기초 모델을 구축한다.
추론 중심 RL(Reasoning-oriented RL)
- 콜드 스타트 데이터를 기반으로 DeepSeek-V3-Base를 미세 조정한 후, DeepSeek-R1-Zero와 동일한 강화 학습 과정을 수행한다.
- 그러나 언어 혼합(Language Mixing) 문제를 해결하기 위해 추가적인 언어 일관성(Language Consistency) 보상을 도입한다.
- 이 보상은 CoT에서 목표 언어의 단어 비율을 측정하여 계산된다.
거절 샘플링(Rejection Sampling) 및 SFT
- 이 단계에서는 글쓰기, 역할 수행(Role-playing) 및 일반적인 작업 수행 능력 향상을 목표로 한다.
- 추론 중심 RL이 수렴한 후, 체크포인트에서 600k 개의 추론 관련 학습 샘플을 거절 샘플링 기법으로 수집하여 올바른 응답만을 유지한다.
- 또한, 약 200k 개의 비추론(non-reasoning) 학습 샘플을 추가 수집하며, 이 데이터는
  - DeepSeek-V3의 일부 SFT 데이터에서 가져오거나,
  - DeepSeek-V3 자체가 생성한 데이터로 구성된다.
RL 정렬(RL Alignment)
- 이 단계에서는 모델을 인간의 선호도에 맞게 더욱 정렬(align)시키는 것을 목표로 한다.
- 모델이 보다 도움이 되고(helpfulness), 해가 되지 않으며(harmlessness), 추론 능력이 개선되도록 조정된다.
- 도움 여부(Helpfulness)는 응답의 유용성과 관련성을 기반으로 평가되며,
- 해가 되지 않는지(Harmlessness)는 응답 전체를 평가하여 위험, 편향 또는 유해한 콘텐츠를 줄이는 방식으로 측정된다.

3 논의(Discussions)

이 섹션에서는 DeepSeek이 혁신을 이룬 여러 영역을 식별하고, 향후 연구의 잠재적인 방향을 강조한다.

트랜스포머 아키텍처 개선(Transformer Architecture Improvement)
- 트랜스포머는 LLM의 핵심 구성 요소이다.
- MLA(Multi-Head Latent Attention)는 어텐션 메커니즘을 개선, MoE(Mixture of Experts)는 트랜스포머 내 FFN(Feed-Forward Network) 블록을 강화하여 DeepSeek-V3 모델의 발전에 크게 기여했다.
- 트랜스포머 아키텍처의 발전은 훈련 과정의 효과성과 효율성 모두에 영향을 미칠 수 있다.
- 예를 들어, **2.1.3절에서 논의된 디커플링된 로터리 위치 임베딩(decoupled rotary position embedding)에 대한 종합적인 소거 연구(실험적 분석)**는 더 깊은 통찰을 제공할 수 있다.
- 또한, 2.2.3절에서 설명된 로드 밸런싱(load balancing) 목표에 대한 추가적인 이론적 정당화도 향후 연구에서 중요한 가치를 가질 것이다.
높은 샘플 효율성(High Sample Efficiency)
- 멀티 토큰 예측(Multi-token prediction) 도입을 통해 훈련 데이터 활용도를 높여 샘플 효율성을 향상시켰다 [GIR+24].
- 이는 훈련 데이터를 더욱 효과적으로 활용하는 알고리즘을 개발함으로써 훈련 효율성을 높일 수 있음을 시사한다.
- 그러나 2.3절에서 언급된 대로, 이로 인해 훈련 시간이 길어지는 문제가 발생하며, 이에 대한 추가적인 개선 가능성이 남아 있다.
알고리즘, 프레임워크 및 하드웨어의 공동 설계(Co-design of Algorithms, Frameworks, and Hardware)
- DualPipe 및 FP8 혼합 정밀도(FP8 mixed precision) 훈련은 훈련 효율성을 향상시키기 위해 도입된 엔지니어링 기법이다.
- 이러한 혁신은 모델을 설계할 때 아키텍처, 알고리즘, 하드웨어를 통합적인 관점에서 고려하는 것이 중요함을 강조한다.
- 최근 2.4.1절에서 언급된 바와 같이, [QWHL25] 연구에서 DualPipe의 개선이 이루어졌다.
강화 학습(Reinforcement Learning)
- 사후 훈련(Post-training) 단계에서 순수 강화 학습이 보여준 인상적인 성능은 이 분야의 새로운 연구 방향을 제시한다.
- 특히, **SFT와 RL을 번갈아 수행하는 반복적인 훈련 접근법(iterative training approach)**은 매우 영감을 주는 방식이다.
- 또한, GRPO 알고리즘의 도입은 기존 RL 알고리즘을 개선하여 GPU 메모리 사용량을 크게 줄일 수 있음을 보여준다.

4 결론(Conclusion)

이 논문에서는 DeepSeek 모델의 성공을 이끈 주요 혁신 기술을 검토했다.
이러한 혁신에는 다음과 같은 요소들이 포함된다:

트랜스포머 아키텍처 개선
샘플 효율성을 향상시키는 기법
알고리즘, 프레임워크 및 하드웨어의 공동 설계
GRPO 강화 학습 알고리즘 및 사후 훈련 단계에서의 강화 학습 적용

본 연구는 빠르게 발전하는 이 분야에서 여러 개방된 질문과 향후 연구 방향을 강조하며, 지속적인 발전의 가능성을 제시한다.

728x90

'AI 논문 > AI trend research' 카테고리의 다른 글

Model Context Protocol(MCP) 개념 이해하기 (0)	2025.04.01
Transformers without Normalization (0)	2025.03.25
Introducing Instella: New State-of-the-art Fully Open 3B Language Models (0)	2025.03.08
The FFT Strikes Back: An Efficient Alternative to Self-Attention (0)	2025.03.07
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training (0)	2025.02.14

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`