Why do LLMs attend to the first token?

1. 전체 요약

 

이 논문은 대형 언어 모델(LLM)에서 흔히 관찰되는 “attention sink” 현상, 즉 주로 첫 번째 토큰(보통 ⟨bos⟩ 토큰)이 전체 어텐션의 큰 부분을 차지하는 현상이 왜 나타나며 어떤 역할을 하는지를 분석합니다.


1. 문제 제기 및 동기

  • attention sink 현상: LLM에서 여러 어텐션 헤드가 존재하지만, 특히 첫 번째 토큰에 집중되는 경향이 관찰됩니다. 이는 ⟨bos⟩ 토큰 또는 첫 번째 입력 토큰이 대부분의 어텐션을 "흡수"하게 만드는 현상입니다.
  • 이전 연구와 차별점: 그동안 attention sink 문제는 주로 부작용(예: 양자화 문제, 보안 취약점, 스트리밍 어텐션 등)으로 다뤄졌지만, 이 논문에서는 왜 이런 패턴이 오히려 유용할 수 있는지를 이론적 및 실험적으로 탐구합니다.

2. 주요 가설 및 이론적 배경

  • 정보의 혼합과 표현 붕괴 문제:
    • Transformer의 어텐션 메커니즘은 토큰 간 정보를 혼합하는 역할을 하지만, 너무 과도한 혼합(over-mixing)은 정보의 상실(예: rank collapse, representational collapse)으로 이어질 수 있습니다.
    • 모델이 깊어지거나 긴 문맥을 처리할 때 이런 현상이 더욱 두드러지는데, 이는 over-squashing 문제와도 연결됩니다.
  • attention sink의 역할:
    • 첫 번째 토큰에 어텐션을 집중시키는 것은 일종의 “정보 혼합 방지” 장치로 작용합니다. 즉, 특정 토큰(⟨bos⟩)에 어텐션을 집중시킴으로써 나머지 토큰들의 표현이 지나치게 섞이지 않고 안정적인 정보를 유지할 수 있도록 돕습니다.
    • 이로 인해 작은 변화(perturbation)가 모델의 출력에 미치는 영향을 줄이며, 토큰 간 표현의 분산을 유지할 수 있게 됩니다.
  • 수학적 분석:
    • 논문에서는 미분(자코비안)을 이용해 한 토큰의 표현 변화가 다른 토큰에 전달되는 민감도를 분석합니다.
    • 이론적 결과들을 바탕으로, 네트워크의 깊이, 어텐션 헤드 수, 그리고 처리하는 문맥 길이가 over-mixing에 어떻게 영향을 미치는지 설명합니다.

3. 실험 및 관찰 결과

  • 모델 크기와 문맥 길이의 영향:
    • 실험 결과, 모델이 커지거나 더 긴 문맥으로 학습될수록 첫 번째 토큰의 attention sink가 더욱 강하게 형성됩니다.
    • 예를 들어, LLaMA 3.1 계열 모델에서는 8B에서 405B 크기로 갈수록 sink metric이 증가하는 패턴을 보입니다.
  • 추가 실험 – perturbation 분석:
    • Gemma 7B 모델에서 토큰 하나의 미세한 변경(예: 단어 치환)이 전체 표현에 미치는 영향을 관찰한 결과, ⟨bos⟩ 토큰이 있을 때는 변화가 국지적으로 제한되는 반면, 없을 때는 변화가 전체 네트워크에 퍼져나가는 현상을 확인했습니다.
    • 이는 ⟨bos⟩ 토큰이 일종의 “노-옵(no-op)” 역할을 하며, 불필요한 정보 혼합을 방지하는 메커니즘으로 작용함을 시사합니다.
  • 데이터 포장(packing) 및 토큰 전략의 영향:
    • ⟨bos⟩ 토큰의 고정 위치 여부가 어텐션 sink 형성에 결정적인 영향을 미치며, 학습 과정에서 ⟨bos⟩ 토큰이 항상 첫 번째 위치에 등장하도록 하였을 때 모델의 성능과 어텐션 패턴이 크게 달라짐을 관찰하였습니다.
    • 반대로, ⟨bos⟩ 토큰 없이 학습한 모델은 첫 번째 위치에 대해서도 sink는 형성되지만 그 강도가 약하고, inference 시 ⟨bos⟩ 토큰을 제거하면 성능 저하가 나타납니다.

4. 결론 및 향후 연구

  • 핵심 결론:
    • LLM에서의 attention sink 현상은 단순한 부작용이 아니라, 오버-믹싱을 방지하여 안정적인 표현을 유지하기 위한 자연스러운 학습 결과로 해석할 수 있습니다.
    • 이러한 메커니즘은 모델이 크고 긴 문맥을 처리할 때 발생하는 문제를 해결하는 역할을 합니다.
  • 향후 연구 방향:
    • 이 연구는 어텐션 패턴의 이해와 Transformer 내부에서 정보가 어떻게 전파되는지에 대한 더 깊은 통찰을 제공하며, 이를 기반으로 보다 효율적이고 견고한 모델 설계에 영향을 미칠 것으로 기대됩니다.

이와 같이 논문은 LLM이 왜 첫 번째 토큰에 집중하는지, 그리고 그것이 오히려 모델 안정성과 성능 유지에 어떻게 기여하는지에 대해 이론적 근거와 실험적 증거를 함께 제공하며, attention sink 현상을 재해석하는 새로운 시각을 제시합니다.

 

--------------------------------------------------------------------------------------------------------------------------------------------------------------

 

1. abstract

 

대규모 언어 모델(LLMs)은 시퀀스의 첫 번째 토큰에 과도하게 주의를 기울이는 경향이 있으며, 이는 이른바 어텐션 싱크(attention sink) 현상을 유발합니다.

 

많은 연구들이 이 현상에 대해 자세히 조사하며, 이를 활용하거나 완화하기 위한 다양한 방법들을 제안해왔습니다.

 

어텐션 싱크는 **양자화(quantization)**의 어려움, 보안 문제, 그리고 스트리밍 어텐션과도 관련이 있는 것으로 알려져 있습니다.

 

많은 연구에서 어텐션 싱크가 발생하는 조건과 발생하지 않는 조건을 제시하고 있지만, LLMs가 왜 이런 패턴을 학습하는지, 그리고 이 패턴이 어떻게 활용되는지에 대한 근본적인 질문은 아직 충분히 답변되지 않았습니다.

 

이 논문에서는 LLMs가 과도한 정보 혼합(over-mixing)을 피하기 위한 수단으로 어텐션 싱크를 사용하는 것이라고 이론적, 실증적으로 주장합니다.

 

우리는 이 현상을 Transformer에서 정보가 어떻게 전파되는지를 수학적으로 연구한 기존 연구들과 연결 지어 설명합니다.

 

또한 이론적 직관을 검증하기 위한 실험을 수행하고, 컨텍스트 길이, 모델의 깊이, 데이터 패킹 방식 등의 선택이 어텐션 싱크 현상에 어떤 영향을 미치는지를 보여줍니다.

 

우리는 이 연구가 어텐션 싱크가 LLM에서 어떻게 유용하게 작동하는지를 설명하는 실용적인 새로운 관점을 제공하고, 훈련 과정 중 형성되는 어텐션 패턴에 대한 더 깊은 이해로 이어지기를 바랍니다.

 

2. 서론

 

대규모 언어 모델(LLMs)은 수백 개에서 많게는 수천 개에 이르는 어텐션 헤드(attention heads)에 의해 구동되며, 이 헤드들은 시퀀스 내의 토큰 값을 업데이트하기 위해 유기적으로 작동합니다.

 

Transformer 구조에서 토큰 간 정보를 섞을 수 있는 유일한 메커니즘이 어텐션 패턴이기 때문에, 정보가 어떻게 처리되는지를 이해하기 위해 이들을 연구하는 것은 자연스러운 일입니다.

 

최신 언어 모델들에서 관찰되는 특이하고 흥미로운 현상 중 하나는 바로 **어텐션 싱크(attention sink)**입니다.

 

이는 겉보기엔 의미 없어 보이는 토큰들—주로 시퀀스의 첫 번째 토큰—이 대부분의 어텐션을 차지하는 현상입니다.

 

어텐션 싱크는 양자화 문제(Liu et al., 2024), KV 캐싱 개선(Ge et al., 2024), 스트리밍 어텐션(Xiao et al., 2024), 심지어 보안 취약점(Yona et al., 2025) 등과도 관련되어 있어, 아직 완전히 이해되지 않은 중요한 현상으로 여겨지고 있습니다.

 

많은 연구들은 이러한 어텐션 싱크를 완화하거나 제거하기 위한 목적에서 이를 다뤄왔지만, 본 연구에서는 왜 이 현상이 유용한지를 이해하려는 다른 접근을 취합니다.

 

그 이유는 단순합니다. 어텐션 싱크는 광범위하게 나타나며, 어떤 명시적 사전 지식이 아닌 경사하강법(gradient descent)의 부산물로 등장하기 때문에, 이는 문맥을 처리하는 데 중요한 메커니즘일 가능성이 높기 때문입니다.

 

따라서 우리는 어텐션 싱크 메커니즘이 언제, 왜 유용한지를 이해하고 설명하는 데 관심이 있습니다.

 

이를 위해 이 현상이 ‘정보 혼합(mixing)’의 관점에서 왜 유용한지를 이론적으로 분석하고, 최첨단 LLM들과 우리가 직접 학습시킨 모델들에서 측정 실험을 수행하여 이론을 뒷받침합니다.

 

특히 우리는 어텐션 싱크가 왜 주로 문맥의 첫 번째 위치에서 발생하는지를 이해하는 데 집중합니다.

 

이 위치에는 일반적으로 ⟨bos⟩(beginning of sequence, 시퀀스 시작) 토큰이 들어가게 됩니다.

 

예를 들어, Llama 405B 모델의 일반적인 프롬프트에서는 전체 어텐션의 약 80%가 ⟨bos⟩ 토큰에 집중된다는 것을 확인할 수 있습니다(자세한 내용은 4.2절 참조).

 

이러한 어텐션 할당은 여러 면에서 ‘낭비’처럼 보이지만, 우리는 이와 같은 학습된 행동이 왜 유용한지를 이해하는 데 큰 흥미를 가지고 있습니다.

 

우리의 주요 기여는 이러한 어텐션 패턴이 깊은 Transformer 구조가 '과도한 혼합(over-mixing)'을 피하는 방식이라는 점을 보여주는 데 있습니다.

 

이는 랭크 붕괴(rank collapse) (Dong et al., 2021), 표현 붕괴(representational collapse) (Barbero et al., 2024), 신호 전파(signal propagation) (Noci et al., 2022; Arroyo et al., 2025), 그리고 오버스무딩(over-smoothing) (Di Giovanni et al., 2023) 등을 다룬 다양한 이론적 및 실증적 연구들과 관련된 현상입니다.

 

특히, 현대 LLM의 깊은 구조와 긴 컨텍스트는 표현 붕괴를 일으키기에 충분한데, 이를 일부 어텐션 헤드를 비활성화함으로써 늦출 수 있습니다.

 

어텐션 싱크는 이러한 비활성화를 유도하는 대표적인 행동입니다(그림 1 참고). 모델 구조가 깊어질수록 표현이 붕괴되지 않고 충분히 분리된 상태를 유지하려면 더 많은 헤드들이 비활성화되어야 합니다.

 

 

 

주요 기여 정리

  • 3장에서, 우리는 어텐션 싱크가 과도한 정보 혼합(over-mixing)을 제어하는 데 유용하다고 주장합니다. 이 개념을 랭크 붕괴, 표현 붕괴, 과잉 압축(over-squashing) 등의 기존 이론적 현상들과 연결 짓고, 우리의 수학적 직관이 Gemma 7B 모델에서 어떻게 나타나는지를 보여줍니다.

 

  • 4장에서는, 우리의 과도한 혼합 가설을 추가로 뒷받침합니다. 더 정교한 오버스쿼싱 분석 결과에 따르면, 더 큰 모델이나 더 긴 컨텍스트로 학습된 모델일수록 강한 싱크 현상이 나타나야 한다고 예측합니다. 우리는 LLaMa 3.1 계열 모델직접 사전학습한 모델들을 통해 이 두 가지 가설을 모두 검증하였고, LLaMa 3.1 405B 모델에서는 전체 어텐션 헤드의 무려 80%가 강한 싱크를 형성한다는 것을 발견했습니다.

 

  • 5장에서는, 우리의 가설대로 어텐션 싱크는 ⟨bos⟩ 토큰이 사전학습 중 어떤 방식으로 포함되었는지와 관계없이 형성된다는 것을 보여줍니다. 그러나 ⟨bos⟩를 사전학습 중 항상 첫 번째 토큰으로 고정하면, 모델이 싱크를 구성하는 방식에 영향을 미친다는 점도 확인했습니다.

 

3. 배경 (Background)

 

본 연구에서는 디코더 전용(Decoder-only) Transformer 모델(Radford et al., 2018)에 집중합니다.

 

이 모델은 **인과적 마스크(causal mask)**를 어텐션 메커니즘에 적용하며, 현재까지의 최신 LLM에서 가장 널리 사용되는 Transformer 구조입니다(Gemma Team et al., 2024; Dubey et al., 2024).

 

우리는 Barbero et al. (2024)의 표기법을 따르되, **어텐션 헤드 수 H≥1H \geq 1**인 모델도 중요하게 고려합니다.

 

 

 

 

여기서 $ψ^{(ℓ)}$는 비선형 함수이며, 함수 $k$는 쿼리 $q$, 키 $k$, 그리고 위치 인코딩 $p_{ij}$를 입력받아 활성화를 생성한다.


$W^{(ℓ,h)} ∈ \mathbb{R}^{d×d}$와 $W^{(ℓ)} ∈ \mathbb{R}^{Hd×d}$는 학습 가능한 행렬들이며,
$⊕$는 직접 합(direct sum, 즉 연결 또는 concat)을 나타낸다.

 

표기법을 단순화하기 위해 본 논문에서는 레이어 정규화(layer normalization)는 생략하지만, 이는 일반성을 해치지 않는다.


합이 $j ≤ i$인 경우에만 이루어지는 것은 **인과 마스크(causal mask)**에 의한 것이다.

 

어텐션 계수를 $A^{(ℓ,h)}$라는 행렬로 표현할 경우,
$A^{(ℓ,h)}_{ij} = α^{(ℓ,h)}_{ij}$ 라고 할 수 있으며,


이 조건은 $A^{(ℓ,h)}$가 **하삼각 행렬(lower triangular matrix)**이 되도록 강제하는 것과 같다.

 

LLM은 이러한 블록 $L$개로 구성되며, $L$은 흔히 모델의 **깊이(depth)**라고 부른다.


새로운 토큰은 **오토리그레시브 방식(autoregressive)**으로 생성되며,


이는 마지막 토큰의 마지막 레이어 표현 $v^{(L)}_n$을 기반으로 토큰 어휘에 대한 분포로 매핑한 뒤,


이 분포에서 새 토큰을 샘플링하는 방식으로 이루어진다.


이 과정을 반복하며 다음 토큰들을 순차적으로 생성한다.

 

1) Attention Sink (어텐션 싱크)


"Attention sink"라는 용어는 Xiao et al. (2024)에서 처음 사용되었으며, 의미적으로는 크지 않지만 어텐션 헤드 내에서 많은 비중의 어텐션을 끌어들이는 토큰을 가리킵니다.

 

이들은 슬라이딩 윈도우 어텐션(sliding-window attention)을 계산할 때 성능 유지를 위해 반드시 유지되어야 함을 보였습니다.

 

최근 연구인 Gu et al. (2025)에서는 프리트레이닝 구성 요소들을 다양하게 제거해가며 어떤 조건에서 attention sink가 발생하는지를 실증적으로 분석했습니다.

 

Attention sink는 더 넓은 범주의 개념이지만, 본 연구에서는 첫 번째 토큰에서 형성되는 attention sink에 집중합니다.

 

이는 현존하는 가장 일반적인 패턴이기 때문입니다.

 

Sink의 존재 여부를 측정하기 위해 Gu et al. (2025)이 제안한 다음의 metric을 따릅니다:

 

$sink\ rate = \frac{1}{LH} \sum_{h,ℓ} \mathbb{1} \left( \frac{1}{T} \sum_{j} \alpha^{(ℓ,h)}_{1,j} > ϵ \right)$

 

이 식은 전체 모델의 attention head들 중 평균적으로 **첫 번째 토큰(sink)**에 대해 어텐션 계수가 $ϵ$ 이상인 비율을 나타냅니다.

 

별도로 명시하지 않는 한, $ϵ = 0.3$으로 설정합니다.

 

attention sink가 어떻게 형성되는지에 대해서는 여러 주요 연구들이 있어 왔습니다.

  • **Cancedda (2024)**는 스펙트럼 관점에서 특정 서브스페이스가 attention sink를 생성한다고 설명합니다.
  • **Sun et al. (2024)**는 **대규모 활성화(massive activations)**가 attention sink 생성의 원인임을 보입니다.
  • **Barbero et al. (2025)**는 특정 어텐션 헤드를 역공학하여 **쿼리(query)와 키(key)**의 고노름(high-norm) 밴드가 attention sink 형성에 기여함을 보여줍니다.

이러한 연구들은 모두 큰 활성화 값이 attention sink 생성에 기여한다는 점을 시사합니다.

 

하지만 본 연구에서는 attention sink가 어떻게 생기는지뿐 아니라, 왜 유용한지 특히 긴 문맥(long-context) 학습에서 왜 중요한지를 밝히는 데 초점을 맞춥니다.

 

우리는 이와 같은 학습된 동작이 효과적인 긴 문맥 학습에 필수적이라 강하게 주장하며, 이는 기존 연구를 잘 보완하는 새로운 관점이라 믿습니다.

 

2) Transformer에서의 정보 전파


많은 연구에서 (딥) Transformer 내에서 정보가 어떻게 전파되는지를 분석해왔습니다.

 

선형(linear) 경우에는 **rank collapse(랭크 붕괴)**라는 현상이 집중적으로 연구되었으며 (Dong et al., 2021; Geshkovski et al., 2023; Wu et al., 2024; Naderi et al., 2024), 이는 어텐션 레이어가 반복적으로 적용되면 값 벡터들이 랭크 1인 벡터 공간으로 수렴한다는 현상을 말합니다.

 

이와 유사한 현상은 **그래프 신경망(Graph Neural Networks)**에서도 관찰되었고, 일반적으로는 **over-smoothing(과도한 평활화)**라고 불립니다 (Di Giovanni et al., 2023; Keriven, 2022).

 

핵심 직관은 어텐션 행렬이 정보를 "섞고(mix)" 이 섞임이 반복되면 정보를 구별할 수 없는(uninformative) 공간으로 수렴한다는 것입니다.

 

최근 Wu et al. (2024)은 이러한 분석을 causal mechanism, 즉 decoder-only Transformer로 확장하면서 causal masking이 수렴 과정에 어떤 영향을 주는지를 설명했습니다.

 

중요하게도, **Velicković et al. (2024)**는 추론 시 문맥 길이가 충분히 길어질 경우, **전역 어텐션 행렬(global attention matrix)**은 **선명(sharp)**하게 유지될 수 없고 결국 순수 혼합(pure mixing) 상태로 수렴함을 이론적으로 증명했습니다.

 

이 문제의 원인은 **토크나이제이션(tokenisation)**으로, softmax에 입력되는 **logit 값의 분산(logit spread)**에 상한이 생기기 때문입니다.

 

어텐션을 희소화(sparsify)하면 선명도를 높일 수 있지만, 그에 따른 트레이드오프는 아직 명확히 이해되지 않고 있습니다 (Vitvitskyi et al., 2025).

 

이와 관련된 decoder-only Transformer의 또 다른 현상은 **over-squashing(과도한 압축)**입니다.

 

Barbero et al. (2024)은 causal mask로 인해 시퀀스 초반 토큰에 모델이 더 민감해진다는 점을 보여주었습니다.

 

또한, **representational collapse(표현 붕괴)**라는 현상을 설명하는데, 이는 긴 시퀀스에서 Transformer가 시퀀스 후반부 토큰의 정보를 점차 파괴하는 경향이 있다는 것입니다.

 

이러한 효과들은 Transformer가 깊어질수록(Barbero et al., 2024), 그리고 더 긴 문맥을 처리할수록(Velicković et al., 2024) 정보를 과도하게 섞는(over-mix) 경향을 보인다는 두 가지 주요 문제를 시사합니다.

 

본 연구에서는 이러한 현상들을 attention sink 현상과 연결시킵니다.

 

우리는 Transformer가 표현 붕괴를 방지하고 의미 있는 표현 간 거리를 유지하기 위해 특정한 attention sink 패턴을 의도적으로 활용하고 있음을 보여줍니다.

 

추가적으로 우리는 rank collapse, representational collapse, over-squashing 간의 흥미로운 연결 고리를 제시하는데, 이는 독립적인 연구 주제로도 가치가 있을 수 있습니다.

 

4. Transformer 블록은 Over-mixing을 피해야 한다

 

우리는 **어텐션 싱크(attention sink)**의 형성이 왜 유용하거나 심지어 필수적일 수 있는지를 이해하기 위한 수학적 통찰을 제시합니다.


먼저, **rank collapse(랭크 붕괴)**와 representational collapse(표현 붕괴) 간의 관계를 연결하며, rank collapse가 더 강한 조건임을 보입니다.


이후, 더 강력한 over-squashing(과도 압축) 경계를 도출하고, 이를 바탕으로 어떤 요인들이 attention sink 형성에 영향을 줄 수 있는지 예측합니다.


우리는 이러한 직관을 검증하기 위해 Gemma 7B 모델에 대해 실험도 수행했습니다.

 

1) Rank collapse는 representational collapse보다 더 강한 조건이다.

Transformer의 ℓ번째 블록에서 $i$번째 토큰의 value 벡터를 $v^{(\ell)}_i$ 라 하고, $n$개의 토큰에 대한 value 벡터들을 모은 $n \times d$ 행렬을 $V^{(\ell)}$로 표기합니다.


우리는 Wu et al. (2024)에서 정의한 rank collapse를 따르며, 이를 다음과 같이 수식으로 표현할 수 있습니다:

 

 

 

여기서 $\hat{V}^{(L)} = \frac{1}{n}11^\top V^{(L)}$는 모든 토큰의 value 벡터들의 평균 표현입니다.


즉, 이 수식은 전체 표현 $V^{(L)}$이 평균 표현 $\hat{V}^{(L)}$에서 얼마나 멀리 떨어져 있는지를 나타내며, 이 거리가 $\Delta$보다 작으면 rank collapse가 발생한 것으로 간주합니다.

 

비선형성과 잔차 연결(residual connection)이 없는 Transformer에서는 이 값이 깊이에 따라 지수적으로 감소하는 것으로 알려져 있습니다.

 

한편, Barbero et al. (2024)은 representational collapse를 다음과 같이 정의합니다:

 

 

 

여기서 $n$과 $n-1$번째 토큰은 반복된 토큰이며, **앞쪽 시퀀스(prefix)**가 점점 길어지는 구성입니다.


이 정의는 Transformer가 시퀀스 후반으로 갈수록 토큰 간의 표현 차이를 잃어버리는 경향이 있음을 보여줍니다.

 

이 두 개념은 겉보기에 유사하지만, 우리는 먼저 **rank collapse가 representational collapse를 함의한다(implies)**는 것을 보이며(이 절의 모든 증명은 부록 D 섹션에 포함되어 있습니다), 그 역은 성립하지 않음을 확인했습니다.

 

즉, 두 지표는 서로 다른 효과를 측정하고 있다는 것입니다.

 

Proposition 3.1 (Rank collapse는 representational collapse를 함의한다).

 

 

 

 

이 결과가 representational collapse가 고려할 가치가 없는 지표라는 뜻은 아닙니다.


Rank collapse 조건은 훨씬 더 강력한 조건이며, 실제로는 선형 시스템에서만 자주 나타납니다 (Wu et al., 2024; Dong et al., 2021).


반면, representational collapse는 비선형 시스템에서도 연구가 가능하며, 이는 Barbero et al. (2024)의 연구에서 다뤄졌습니다.

 

흥미롭게도, **rank collapse는 모델의 깊이(depth)**와 관련된 개념인 반면, **representational collapse는 문맥 길이(context length)**와 관련된 개념입니다[^3].


관심 있는 독자를 위해 부록 B 섹션에 collapse 관련 추가 실험을 수록해두었습니다.

 

이러한 현상들은 모두 심각한 over-mixing(과잉 혼합) 효과의 결과입니다.


이러한 현상은 Transformer의 깊이가 너무 깊거나, 문맥 길이가 너무 길어질 때 발생합니다.


따라서 Transformer는 이러한 효과를 상쇄하기 위한 방어 메커니즘을 학습할 필요가 있습니다.


이 논문의 이후 내용은 attention sink 현상이 바로 그런 방어 메커니즘 중 하나일 수 있음을 밝히는 데 초점을 맞춥니다.

 

5. Over-mixing을 피하기 위한 수단으로서의 Attention Sink

 

혼합(mixing)의 정도를 측정하는 자연스러운 방법 중 하나는 아래 야코비안(Jacobian)의 노름(norm)을 사용하는 것입니다:

 

 

 

 

여기서 $J_{ij}^{(L)}$는 토큰 $i$가 입력층에서 조금 변했을 때, 토큰 $j$의 $L$번째 층 표현이 얼마나 민감하게 반응하는지를 나타낸다.


이는 RNN에서의 vanishing gradient(기울기 소실) 분석과 비슷하다.

 

Transformer는 이 민감도를 제어하지 못하면 rank collapse나 representational collapse와 같은 문제에 직면할 수 있다.


이에 대한 동기를 부여하고 이후 논의를 위한 기반을 마련하기 위해, Barbero et al. (2024)의 over-squashing 결과를 확장하여 multi-head attention을 포함시킨다.

 

정리 3.2 (더 정밀한 Over-squashing 경계)

 

다음 조건들을 가정한다:

  • $C_{\text{max}} > 0$: Transformer의 어떤 층이든 갖는 최대 Lipschitz 상수,
  • $H$: 어텐션 헤드 수,
  • $\delta^j_i$: $i = j$일 때 1이고, 그 외에는 0,
  • $k \in \mathcal{P}_{i \to j}$: $i$에서 $j$로 가는 길이 $L$의 경로,
  • $\bar{\alpha}^{(\ell)}{ij} = \sum_h \bar{\alpha}^{(\ell,h)}{ij} + \frac{\delta^j_i}{H}$,

 

 

 

이 부등식은 attention head를 통해 정보가 전달되는 경로가 토큰 간 민감도에 어떻게 영향을 주는지를 보여준다.


이 관점에서 attention sink의 효과는 명확하다: 입력의 작은 변화가 출력에 미치는 영향을 제어하는 데 도움을 준다 (그림 1 참고).

 

또한, 이 경계는 민감도가 모델의 깊이, 어텐션 헤드 수, 문맥 길이에 따라 제어된다는 것을 의미한다.


따라서 모델이 커지거나 더 긴 문맥을 다룰수록, 더 강한 sink가 형성되어야 민감도를 잘 제어할 수 있을 것으로 기대된다.

 

후속 섹션에서는 최신 LLM과 처음부터 학습한 LM에 대한 실험 결과를 통해 이러한 주장을 뒷받침할 것이다.

 

6. Gemma 7B에서 Sink가 혼합(mixing)을 방지하는 방식

 

이러한 직관을 검증하기 위해, 우리는 Gemma 7B에서 perturbation 분석을 수행하였다.


토큰 공간에서의 작은 교란(perturbation)을 시뮬레이션하기 위해, 시퀀스 내 하나의 토큰만 살짝 바꿔본다.


예를 들어 ‘greatest’를 ‘best’로 바꾸는 식이다 (자세한 내용은 부록 C절 참조).


그 후 attention sink가 존재할 때와 존재하지 않을 때, 모델 전반의 표현이 어떻게 변하는지를 측정한다.

 

그림 2의 (a)에서는 ⟨bos⟩(beginning of sequence 토큰)이 유지된 경우를, (b)에서는 ⟨bos⟩가 제거된 경우의 교란 동작을 보여준다.

 

(b)에서는 표현이 훨씬 더 많이 영향을 받는다는 것을 알 수 있는데, 이는 혼합률(mixing rate)이 더 높아졌기 때문이다.

 

 

 

이 실험은 실제로 $J_{ij}^{(ℓ)}$, 즉 ℓ번째 레이어에서 토큰 i에 대한 미세한 변화가 토큰 j의 표현에 얼마나 영향을 주는지를 나타내는 민감도(sensitivity)를 추정하는 하나의 방법이다.

 

우리는 이 방법이 의미 있는 방식으로 over-squashing을 측정하는 흥미로운 수단이 될 수 있다고 믿으며, 이는 Barbero et al. (2024)이 열린 질문으로 남겨두었던 문제이기도 하다.

 

 

 

그림 3에서는 Gemma 7B에서 ⟨bos⟩ 토큰을 제거했을 때 attention map이 훨씬 더 부드러워지는 현상을 보여준다.


이러한 변화는 $J_{ij}$ 값들을 증가시키는 효과를 가지며, 이는 attention sink의 존재가 모델 내부의 민감도(sensitivity)를 제어하는 데 도움이 된다는 주장에 추가적인 근거를 제공한다.

 

어텐션 싱크는 근사적인 no-op 연산을 구성하는 데 도움을 준다.


싱크 현상을 더 깊이 있게 살펴보기 위해, 우리는 Barbero et al. (2025)에서 이미 연구된 Gemma 7B의 특정 어텐션 헤드를 분석한다.

 

이 어텐션 헤드는 모델의 첫 번째 레이어에 위치하며, 이전 토큰이 작은따옴표(apostrophe)일 때 특정하게 활성화되는 것으로 보인다(Figure 4 (a) 참조). 이 헤드는 사실상 두 가지 동작 모드를 갖는다:

  • 활성화 조건이 만족될 때는 매우 날카롭게(firing sharply) 반응하고,
  • 그렇지 않을 때는 ⟨bos⟩ 토큰에 어텐션을 집중하는 방식이다.

따라서 이 헤드는 일종의 ‘if-else’ 문을 구현한 것으로 볼 수 있다.

 

관련된 value 벡터의 노름(norm)을 시각화해 보면(Figure 4 (b)), ⟨bos⟩ 토큰에 해당하는 value의 노름이 가장 작고, 작은따옴표에 해당하는 value가 가장 크다는 것을 확인할 수 있다.

 

이는 해당 헤드가 작은따옴표 토큰에 집중하는 경향을 보여주는 것으로, 어텐션 헤드가 작동할 때 선호하는 방향을 직관적으로 설명해 준다.

 

이러한 현상은 어텐션 헤드의 흥미로운 작동 방식 중 하나를 드러낸다:


기본적으로는 토큰 임베딩을 가능한 한 업데이트하지 않고(no-op에 가깝게) 유지하다가, 해당 헤드가 작동해야 할 때는 의미 있는 방식으로 임베딩을 크게 업데이트하는 것이다.


⟨bos⟩ 토큰에 존재하는 어텐션 싱크는 이러한 ‘근사적인 no-op’을 구성하는 직접적인 메커니즘을 제공하며, 이는 Gu et al. (2025) 등의 다른 연구들에서도 지적된 바 있다.

 

또한 이 어텐션 헤드는 이론적으로 연구된 Bigram-Backcopy 태스크(Guo et al., 2024)의 실제 사례라는 점에서 흥미롭다.

 

 

 

섹션 요약: 어텐션 블록은 정보를 섞는 경향이 있지만, 모델은 비정상적인 문제를 피하기 위해 섞이는 비율을 조절하는 메커니즘이 필요하다. 우리는 ⟨bos⟩ 토큰이 계산 그래프에서 perturbation(교란)이 퍼지는 방식을 완화하는 데 어떻게 도움이 되는지를 보여주었다.

 

7. 과잉 스쿼싱이 어텐션 싱크를 예측하는 방식


이번에는 우리의 과잉 스쿼싱과 혼합에 대한 통찰이 어떻게 다양한 크기의 훈련된 모델에서 싱크의 형성을 예측하는지 살펴본다.

 

우리의 과잉 스쿼싱 경계는 긴 컨텍스트로 훈련된 모델과 더 큰 모델에서 교란 효과가 더 커질 것이라고 알려준다.

 

따라서 우리의 통찰이 기저 현상과 잘 일치한다면, 이는 싱크 형성에 영향을 미칠 것이라고 예상된다.

 

1) 컨텍스트 길이가 싱크 형성에 미치는 영향


우리는 사전 훈련된 LLM에서의 경험적 관찰이 ⟨bos⟩ 기반 메커니즘을 시사하는 것은 분명하지만, 훈련 방법이나 모델이 관찰한 데이터를 고려하여 어텐션 싱크와 같은 다양한 아티팩트에 대해 의미 있게 설명할 수는 없다.

 

따라서 Gu et al. (2025)의 사전 훈련 설정을 따르며, 약 120M 파라미터를 가진 LM에서 컨텍스트 길이가 싱크 형성에 미치는 영향을 평가한다(자세한 사항은 부록 A.1 참조).

 

과잉 스쿼싱 직관에 따르면, 모델은 긴 컨텍스트가 자연스럽게 더 강한 혼합을 초래하기 때문에 더 강한 싱크를 학습해야 한다(Velickoviˇ c´ et al., 2024).

 

중요한 점은, 우리는 사전 훈련의 컨텍스트 길이를 달리하여 각 훈련 단계에서 동일한 양의 토큰을 처리하도록 하여 각 모델이 총 50억 개의 토큰을 처리하도록 한다.

 

그림 5 (a)에서는 사전 훈련 후, 긴 컨텍스트로 훈련된 모델에서 어텐션 싱크가 훨씬 더 많이 나타나며, 매우 짧은 컨텍스트로 훈련된 모델에서는 거의 나타나지 않음을 알 수 있다.

 

그림 5 (b)에서는 이 경향이 훈련을 통해 점진적으로 나타난다는 것을 보여준다—처음에는 어텐션 싱크가 없으며, 싱크가 형성되는 속도는 일반적으로 컨텍스트 길이에 따라 증가하다가 포화 상태에 이른다.

 

완전성을 위해, 우리는 부록(그림 7)에서 이 모델들의 검증 손실 곡선을 보고하며, 이들 모두 훈련 중에 유사한 검증 손실을 달성한다.

 

이는 싱크의 출현이 모델을 훈련할 때 과잉 혼합 문제를 피하기 위해 점점 더 긴 컨텍스트 길이를 사용하는 필연적인 부작용일 수 있다는 또 다른 신호이다.

 

 

 

2) LLaMa 3.1 계열에서의 어텐션 싱크


다음으로, 우리는 LLaMa 3.1 계열 모델을 살펴본다.

 

이 모델은 크기가 매우 다른 모델들을 비교할 수 있는 흥미로운 실험 환경을 제공한다.

 

예를 들어, 가장 작은 8B 모델은 32개의 층과 1,024개의 어텐션 헤드를 가지고 있으며, 가장 큰 405B 모델은 126개의 층과 16,128개의 헤드를 가진다(표 1 참조).

 

기본적인 가정은 이들이 동일한 모델 계열에 속하므로, 이 모델들이 거친 훈련 파이프라인이 가능한 한 유사할 것이며, 모델 크기가 커짐에 따라 사전 훈련된 모델들을 연구할 수 있게 된다는 것이다.

 

이는 서로 다른 크기의 모델 간에 어텐션 싱크 패턴이 어떻게 달라지는지를 확인할 수 있는 흥미로운 방법을 제공한다.

 

 

 

그림 6에서는 각 헤드에 대한 싱크 지표를 나타낸 연구 결과를 보여준다.

 

우리는 컨텍스트 길이 실험과 동일한 절차와 프롬프트를 사용하여 지표를 계산하고, 싱크가 가장 낮은 헤드부터 왼쪽에 정렬하였다.

 

가장 작은 8B 모델이 더 큰 모델들에 비해 상당히 더 활발한 것을 쉽게 확인할 수 있다.

 

흥미롭게도, 중간층이 훨씬 더 활발하게 보이며, 이는 다른 연구에서도 관찰된 바 있다(Skean et al., 2025).

 

이는 싱크 지표가 레이어 활동의 대리 지표로 사용될 수 있음을 시사한다.

 

표 1에서는 각 모델에 대한 요약 지표를 보고한다. 모델이 커질수록 싱크가 더 강해지는 경향을 보이며, 이는 3장에서의 직관과 일치한다.

 

 

 

섹션 요약: 우리는 더 큰 모델과 더 긴 컨텍스트로 훈련된 모델이 정보를 혼합하는 방식을 더 잘 제어하기 위해 더 많은 어텐션 싱크를 가질 것이라는 이론적 통찰을 뒷받침하였다.

 

8. ⟨bos⟩는 특별한가?

 

이 섹션에서는 ⟨bos⟩ 토큰과 어텐션 싱크 형성의 관계에 대해 중요한 질문을 다룹니다.

 

직관적으로는 싱크가 단순히 혼합을 방지하는 역할을 한다면, 싱크가 중요한 특성을 가져야 하는 이유는 첫 번째 위치에 있어 후속 토큰의 혼합을 방지하는 것뿐일 것이라고 생각할 수 있습니다.

 

이 동작을 연구하기 위해 여러 가지 훈련 전략을 사용하여 사전 훈련을 진행했습니다(다양한 전략에 대한 그림은 부록의 그림 8에 나와 있습니다).

 

표 2에서의 연구 결과를 요약하자면, 모델이 ⟨bos⟩가 항상 첫 번째 토큰에 위치하도록 훈련되었다면, 추론 중 ⟨bos⟩를 제거하면 어텐션 싱크가 사라집니다.

 

즉, 모델은 ⟨bos⟩ 토큰에 의존해 싱크를 형성합니다. 반면, 훈련 중 ⟨bos⟩가 없으면 싱크는 첫 번째 토큰에서 형성되지만 약간 더 약합니다.

 

⟨bos⟩가 포함된 모델에서 ⟨bos⟩를 제거하면 성능이 크게 저하됩니다.

 

이는 원인 마스킹과 문서 내 마스킹 모두에서 일관되게 나타납니다.

 

이는 사전 훈련의 선택이 모델이 어텐션 싱크를 어떻게 형성하는지에 직접적인 영향을 미친다는 것을 시사하지만, 훈련 중에는 싱크 형성이 불가피하다는 것을 의미합니다.

 

또한, 훈련 전략에 관계없이 어텐션 싱크는 항상 첫 번째 토큰에서 형성된다는 직관을 검증합니다. 더 자세한 내용은 부록(섹션 A.3)을 참조하십시오.

 

 

 

섹션 요약: LM 사전 훈련 중 ⟨bos⟩가 문맥에서 첫 번째 위치에 고정되면, LMs는 ⟨bos⟩를 사용하여 과도한 혼합을 방지합니다. 그렇지 않으면, LMs는 첫 번째 토큰(⟨bos⟩일 필요는 없음)을 사용하여 과도한 혼합을 방지합니다.

 

9. 결론


이번 연구에서는 어텐션 싱크에 대한 새로운 관점을 제시하며, 어텐션 싱크가 트랜스포머 아키텍처에서 과도한 압축(over-squashing)과 과도한 혼합(over-mixing)에 대한 자연스러운 반응으로 발생한다고 주장했습니다.

 

우리의 분석은 어텐션의 상당 부분을 ⟨bos⟩ 토큰에 할당하는 것이 모델이 토큰 변형에 덜 민감해지도록 돕는다는 것을 보여줍니다.

 

모델이 커지거나 더 긴 문맥에 대해 훈련될수록, 이러한 변형에 취약해지며 싱크는 더 강해집니다.

 

우리는 이 연구가 이러한 패턴이 실제로 유용한 이유를 이해하는 데 도움이 될 뿐만 아니라, 과도한 압축과 랭크 붕괴에 대한 이론적 결과의 흥미로운 추가 응용이 될 수 있다고 믿습니다.

 

또한, 우리의 데이터 패킹 탐구는 사전 훈련 방식이 어텐션 패턴에 어떻게 큰 영향을 미칠 수 있는지를 설명하는 데 도움을 줍니다.


우리는 이 새로운 관점이 트랜스포머가 학습하는 근본적인 메커니즘에 대한 이해를 심화시키기 위한 향후 연구에 영감을 줄 것이며, 궁극적으로 더 강력하고 효율적인 아키텍처 개발을 안내할 수 있기를 바랍니다.

728x90