Transformer^2: Self-adaptive LLMs

728x90

대규모 언어 모델(Large Language Models, LLMs)은 인공지능(AI) 발전의 핵심이 되었지만, 기존 LLM은 본질적으로 정적인 구조를 가지고 있어 새로운 작업이나 환경에 빠르게 적응하기 어렵습니다.

 

기존 모델은 정적인 학습 구조를 기반으로 설계되어 한 번 학습된 이후에는 추가적인 작업을 처리하기 위해 전체 모델을 재학습해야 하며, 이는 높은 계산 비용과 자원 소모를 초래합니다.

 

Sakana AI가 제안하는 Transformer²는 이러한 한계를 극복하기 위해 설계된 새로운 프레임워크로, AI 시스템이 환경과 작업에 따라 실시간 적응할 수 있도록 지원합니다.

 

이 프레임워크는 기존 LLM의 정적 구조를 개선하여 특이값 기반 파인튜닝(Singular Value Fine-tuning, SVF)  두 단계 추론(Two-pass Inference) 을 결합하여, 더 높은 성능과 효율성을 제공합니다:

  • 특이값 기반 파인튜닝(Singular Value Fine-tuning, SVF): 모델의 가중치 행렬에서 특이값(Singular Value)만을 선택적으로 조정하여 효율적이고 유연한 적응을 가능하게 합니다.
  • 두 단계 추론(Two-pass Inference): 첫 번째 단계에서 입력 작업의 특성을 분석하고, 두 번째 단계에서 작업에 특화된 전문가 벡터(Expert Vectors)를 활용하여 맞춤형 출력을 생성합니다.

Transformer² 프레임워크는 기존의 LoRA(Low-Rank Adaptation)와 같은 파인튜닝 방식보다 더 적은 매개변수를 사용하며, 계산 효율성을 유지하면서도 성능을 크게 향상시킬 수 있습니다.

 

또한 Transformer²는 단순히 언어 작업에 국한되지 않고, 비전-언어(Vision-Language)와 같은 다양한 도메인에서도 성공적으로 적용될 수 있는 확장성을 가지고 있습니다.

 

 

자기 적응형 LLM (Self-Adaptive LLMs)

자기 적응형 LLM(Self-Adaptive LLMs)은 미지의 작업이나 새로운 환경에서도 모델이 스스로 학습과 최적화를 수행할 수 있도록 설계된 시스템을 의미합니다.

 

이는 기존 LLM이 가진 고정적 학습 구조의 한계를 극복하려는 시도로, 다음과 같이 거시적(macro)과 미시적(micro)의 두 가지 관점에서 연구가 진행되었습니다:

  • 거시적 관점(Macroview): 여러 개의 전문화된 LLM이 협력하거나 경쟁하며 작업을 해결하는 접근법으로, 예를 들어 각 모델이 특정 도메인에서 전문성을 발휘하고, 작업별로 최적의 모델이 선택되는 모듈형 협력과 같은 방식이 있습니다. 관련 연구로는 모델 집합(ensemble) 기술이나 다중 에이전트 시스템(Multi-agent Systems)이 있습니다.
  • 미시적 관점(Microview): 단일 LLM이 내부적으로 작업을 분석하고, 필요한 경우 동적으로 자체 구조를 조정합니다. 대표적인 접근법으로는 전문가 혼합(Mixture of Experts, MoE)가 있습니다. MoE는 모델 내부에 여러 전문가 모듈을 두고, 입력 작업에 따라 특정 모듈만 활성화합니다. 이는 연산량을 줄이고 성능을 높이는 데 효과적입니다.

Transformer²는 위 2가지 관점 중, 미시적 관점에 초점을 맞추며, 기존 MoE 시스템의 단점을 해결하고 적응성을 강화한 설계를 제공합니다.

 

 

 

 

Transformer²는 기존 LLM이 가진 한계를 해결하기 위해 다음과 같은 철학을 기반으로 설계되었습니다:

  1. 모듈식 설계(Modular Design): Transformer²는 작업별로 독립적인 “전문가 벡터(Expert Vectors)“를 생성하고, 이를 실시간으로 조합하여 모델이 특정 작업에 맞게 적응하도록 설계되었습니다. 이 접근 방식은 새로운 작업을 학습하기 위해 전체 모델을 다시 학습할 필요를 없애고, 효율적으로 확장 가능하게 합니다.
  2. 특이값 기반 최적화: 모델의 가중치 행렬을 특이값 분해(Singular Value Decomposition, SVD)하여, 가장 중요한 특이값(singular values)만 조정합니다. 이를 통해 계산 비용을 최소화하면서도 모델의 성능을 최적화할 수 있습니다.
  3. 두 단계 추론(Two-pass Inference): Transformer²는 두 단계로 이루어진 추론 메커니즘을 사용합니다. 첫 번째 단계에서는 입력 작업의 특성을 분석하고, 두 번째 단계에서는 작업에 맞는 전문가 벡터를 조합하여 최적화된 결과를 생성합니다.

이제 SVF와 Two-pass Inference를 각각 살펴보겠습니다.

 

특이값 기반 파인튜닝 (Singular Value Fine-tuning, SVF)

Transformer²는 모델의 가중치 행렬(weight matrix)을 직접 수정하지 않고, 특이값 분해(Singular Value Decomposition, SVD)를 활용해 주요 정보를 조정하는 특이값 기반 파인튜닝(SVF) 방식을 채택하였습니다. 이를 통해 SVF는 기존의 모델 구조를 크게 변경하지 않고, 효율적이고 안정적으로 적응할 수 있도록 설계되었습니다.

특이값 분해(SVD)는 모델의 가중치 행렬 $W \in \mathbb{R}^{m \times n}$ 를 $W = U \Sigma V^T$ 로 분해하는 것을 뜻합니다. 

 

여기서 $U$ 와 $V$ 는 직교 행렬(Orthogonal Matrices)을, $\Sigma$ 는 특이값(Singular Values)을 포함하는 대각 행렬(Diagonal Matrix)을 뜻합니다. 

 

여기서 각 특이값 $\sigma_i$ 는 입력 벡터를 출력 벡터로 변환하는 과정에서 얼마나 기여하는지를 나타냅니다. 

 

즉, 특이값 분해(SVD)를 통해 모델 가중치 $W$ 를 개별 특이값과 그에 대응하는 벡터로 분리하여, 

 

작업별로 가장 중요한 요소만을 식별하고 조절할 수 있어 연산 효율성을 크게 향상 시킬 수 있습니다.

특이값 기반 파인튜닝(SVF)은 모델의 모든 가중치 $W$ 를 학습하는 대신, 특이값 $\Sigma$ 의 각 $\sigma_i$ 를 스칼라 벡터 $z$ 로 조정합니다. 

 

이를 수식으로 나타내면 $W' = U (\Sigma \odot \text{diag}(z)) V^T$ 와 같으며, 

 

이 때 $z \in \mathbb{R}^r$ 는 작업별 학습된 스칼라 벡터를, $\odot$ 은 특이값과 벡터의 요소별(element-wise) 곱셈을 의미합니다.

 

 

 

 

결과적으로 특이값 기반 파인튜닝(SVF)에서는 작업별 학습된 스칼라 벡터 $z$ 만 학습하므로, 연산량이 크게 줄어들게 됩니다. 

 

또한, 기존 모델의 구조를 유지하여 과적합(Overfit) 위험이 낮고, 소규모 데이터셋에서도 안정적인 성능을 보입니다. 

 

특히 (SVD를 사용하여) 각 작업에 대해 독립적인 전문가 벡터 $z$ 를 생성하므로, 이를 조합하여 더 복잡한 작업에도 적응할 수 있게 됩니다.

예를 들어, 수학 작업에서는 $z$-벡터가 $[1, 0.8, 0, 0.3, 0.5]$ 로 설정되어 특정 구성 요소들(A, B)을 강화하며, 

 

언어 이해 작업에서는 $z$-벡터가 $[0.1, 0.3, 1, 0.7, 0.5]$ 과 같은 식으로 설정되어 언어 관련 구성 요소(C)를 강조할 수 있게 되는 방식입니다. (벡터 값과 요소 A, B, C는 모두 예시입니다.)

또한, Transformer²는 SVF를 강화학습(Reinforcement Learning, RL)과 결합하여 LLM의 성능을 최적화하는 학습방식을 제안하고 있습니다. 

 

먼저 가중치 $\theta_W = \{W_1, \cdots, W_{N \times M}\}$ 를 갖는 임의의 언어 모델 $\pi_{\theta_W}$ 을 가정합니다. 

 

여기에서 $N$ 은 모델의 Layer 수, $M$ 은 각 레이어에서 미세조정할 가중치 행렬의 수입니다. 

 

SVF 벡터 $\theta_z = \{z_1, \cdots, z_{N \times M}\}$ 는 가중치 행렬 $W$ 를 미세조정하여 작업에 최적화된 결과를 생성합니다.

강화학습을 통해 이 SVF 벡터를 학습하며 주어진 작업의 성능을 최적화하며, 이 때 최적화 함수 $J(\theta_z)$ 는 다음과 같이 정의합니다:

\[
J(\theta_z) = \mathbb{E} \left[ \log \pi_{\theta_{W}'}(\hat{y}_i | x_i) \cdot r(\hat{y}_i, y_i) \right] - \lambda D_{KL}(\pi_{\theta_{W}'} \| \pi_{\theta_W}),
\]

- 로그 확률 $\log \pi_{\theta_{W}'}(\hat{y}_i | x_i)$: SVF 벡터 $\theta_z$ 로 미세조정된 새로운 가중치 $\theta_{W}'$ 를 가진 모델 $\pi_{\theta_{W}'}$ 가 입력 $x_i$ 에 대해 출력 $\hat{y}_i$ 를 생성할 확률의 로그값으로, 생성된 답변이 정확할수록 $r(\hat{y}_i, y_i)$ 로 보상받습니다.


- 보상 함수 $r(\hat{y}_i, y_i)$: 출력이 정답과 일치하면 1, 그렇지 않으면 -1의 보상을 제공하는 함수($r \in \{-1, 1\}$)로, 보상을 통해 모델은 주어진 작업의 성능을 직접 최적화합니다.


- KL 페널티(KL Penalty) $\lambda D_{KL}(\pi_{\theta_{W}'} \| \pi_{\theta_W})$: 미세 조정된 모델 $\pi_{\theta_{W}'}$ 가 원래 모델 $\pi_{\theta_W}$ 의 동작에서 너무 벗어나지 않도록 KL-Divergence($D_{KL}$)을 사용하여 제한합니다. $\lambda$ 는 규제 강도를 조정하는 하이퍼파라미터로, $\lambda$ 가 작을수록 원래 모델과의 차이가 커지는 것을 허용합니다.

여기서 $\pi_{\theta_{W}'}$ 는 원래 가중치 행렬 $W$ 를 $W'$ 로 대체한 후의 결과 모델을 나타냅니다. 

 

RL은 일반적으로 다음 토큰 예측 목표보다 덜 안정적인 것으로 간주되지만, 저자들은 SVF의 정규화 속성이 이전의 덜 제한적인 매개변수화(parameterized)의 많은 실패 모드를 피할 수 있도록 한다는 것을 발견했습니다. 

 

따라서 이러한 보완 요소를 결합함으로써 우리는 대규모 수작업 설계 데이터 세트를 대리자로 사용하는 비용이 많이 드는 미세조정 절차에 의존하지 않고, 작업 성능을 직접 극대화할 수 있습니다.

 

적응 전략 (Adaptation Strategies)

Transformer²는 작업 특성에 따라 두 단계 추론(Two-pass Inference)을 통해 적응을 실행합니다.

 

두 단계 추론은 입력 데이터를 처리하기 전에 작업의 유형을 분석하고, 이에 적합한 전문가 벡터(z)를 선택한 뒤 작업을 수행하는 방식으로, 이는 인간이 문제를 해결하기 전에 문제 유형을 파악하고 최적의 도구를 선택하는 방식과 유사합니다.

  • 1단계. Dispatch Phase: 모델이 입력 작업의 특성을 분석하여, 적합한 전문가 벡터를 선택합니다. 작업의 범주(category)를 자동으로 분류하거나, 사전 정의된 작업군으로 매핑합니다.
  • 2단계. Adaptation Phase: 선택된 전문가 벡터를 사용해 모델의 가중치를 조정하고, 최적화된 결과를 생성합니다.

이 때, Transformer² 적응 전략은 작업의 복잡도와 데이터 가용성에 따라 다음과 같은 세 가지로 구분합니다:

  • 프롬프트 엔지니어링 (Prompt Engineering): 프롬프트 엔지니어링은 Transformer²의 가장 기본적인 자기 적응 방법으로, **적응 프롬프트(adaptation prompt)**를 생성하여 입력 작업을 사전 정의된 카테고리로 분류하는 방식입니다. 이후 분류 결과에 따라 학습된 SVF 벡터(Singular Value Fine-tuning Vector) z  z1:K 에서 선택합니다. 이 때, 어떤 카테고리에도 적합하지 않은 작업을 위해 "others"와 같은 옵션을 제공하며, 이 경우에는 SVF 벡터를 사용하지 않고 모델의 기본 가중치(base weights)를 활용하도록 동작합니다. 프롬프트 엔지니어링 기반 적응 방식은 추가적인 시스템 구성 없이 프롬프트 설계만으로 구현할 수 있어 카테고리를 확장하거나 수정하기 쉬운 장점이 있습니다. 하지만, 여러 카테고리에 걸친 모호한 작업의 경우 분류 정확도가 낮아질 수 있으며, 적응 프롬프트의 명확성과 완성도에 따라 성능이 크게 좌우된다는 한계 또한 갖고 있습니다.
  • 분류 전문가 (Classification Expert): 분류 전문가는 프롬프트 엔지니어링 방식을 확장하여 작업 분류를 처리하기 위한 전용 시스템을 도입합니다. 이 시스템은 SVF를 활용한 미세 조정(fine-tuning)을 통해 LLM의 작업 분류 능력을 최적화합니다. 이 때, 작업 분류를 위한 전용 전문가 벡터 zc 를 학습함으로써 분류 정확도가 향상되며, 기존 SVF 벡터와 결합하여 더욱 정교한 작업 처리가 가능하다는 장점이 있습니다. 하지만 이러한 zc 학습이 필요하므로 학습 비용이 증가한다는 단점과 함께, 학습 데이터셋 D 의 품질과 다양성에 성능이 크게 좌우된다는 한계가 있습니다.
  • Few-shot 적응 (Few-shot Adaptation): Few-shot 적응은 Few-shot 프롬프트(few-shot prompting) 기법을 확장하여 추가적인 작업 정보를 활용합니다. 각 목표 작업에 대해 기존 SVF 벡터를 선형 보간(linear interpolation)하여 최적화된 새로운 z 벡터를 생성합니다. 이 방식은 크로스 엔트로피 방법(Cross-Enthropy Method, CEM)를 사용하여 SVF 벡터 각각 zi 에 해당하는 가중치 αi 를 최적화합니다. 이는 전통적인 Few-shot 프롬프트와 달리, 질문 프롬프트에 예시를 포함하지 않아 질문 프롬프트의 길이가 증가하지 않으며, 미지의 작업에서도 높은 적응력을 제공한다는 장점이 있습니다. 하지만, CEM 기반 최적화는 적응 과정에서 추가적인 연산이 필요하며, 별도의 테스트 데이터셋을 뜻하는 Few-shot 프롬프트가 부족할 경우 성능이 저하된다는 한계가 있습니다.

 

 

Transformer²는 단순하고도 유연한 프롬프트 엔지니어링 기법을 사용하여 기본적인 작업 분류를 처리하며, 전용 시스템을 통해 분류 정확도를 높이는 분류 전문가를 채택하여 SVF와의 통합을 지원합니다.

 

또한, 기존 SVF 벡터를 조합하여 미지의 작업에서도 뛰어난 성능을 제공하는 Few-shot 적응 방식을 적용하는 등, 계층적 접근 방식을 사용하여 다양한 작업과 도메인에서 효율적으로 동작할 수 있도록 지원합니다.

 

먼저, 다음은 수학(Math), 코딩(Coding), 추론(Reasoning), 시각-언어(Vision-Language)의 4가지 작업에서 특이값 기반 파인튜닝(Singular Value Fine-tuning, SVF) 과정에서 발생하는 학습 곡선을 시각화한 도표로, SVF가 작업별로 얼마나 효과적으로 학습하며, 기존 모델 성능을 얼마나 초과하는지 보여줍니다:

 

 

 

 

또한, 전체적인 모델의 성능 평가에 있어서도 미세조정 전의 기준점과 LoRA 기법보다 SVF 기법이 더 나은 성능을 보였습니다. 

 

 

 

학습 시점에 학습하지 않은 작업(Unseen Task)들에 대한 자가 적응(Self-Adaptation) 성능 또한 뛰어남을 확인할 수 있었습니다.

 

 

 

 

Transformer²의 응용 가능성 및 결론

Transformer²는 자원 효율성을 극대화하고, 기존 모델을 재사용할 수 있는 기반을 제공합니다.

 

이는 AI 모델의 환경적 영향을 줄이는 데 중요한 역할을 할 것입니다.

 

특히, 실시간으로 작업과 환경에 적응할 수 있어, 다양한 분야에서 사용자 경험을 혁신적으로 개선할 수 있을 것으로 기대합니다.

 

또한, 언어와 비전 데이터를 동시에 처리하며, 복합적이고 다중 도메인 작업에서도 강력한 성능을 발휘하여, 향후 멀티모달 AI 시스템에서의 기여도 가능할 것으로 보입니다.

 

 

https://discuss.pytorch.kr/t/transformer-llm-self-adaptive-llms-feat-sakana-ai/5881

 

Transformer²: 자기 적응형 LLM(Self-Adaptive LLMs)에 대한 연구 (feat. Sakana AI)

Transformer² 연구 소개 대규모 언어 모델(Large Language Models, LLMs)은 인공지능(AI) 발전의 핵심이 되었지만, 기존 LLM은 본질적으로 정적인 구조를 가지고 있어 새로운 작업이나 환경에 빠르게 적응하

discuss.pytorch.kr

 

https://arxiv.org/abs/2501.06252?utm_source=pytorchkr&ref=pytorchkr

 

$\text{Transformer}^2$: Self-adaptive LLMs

Self-adaptive large language models (LLMs) aim to solve the challenges posed by traditional fine-tuning methods, which are often computationally intensive and static in their ability to handle diverse tasks. We introduce $\text{Transformer}^2$, a novel sel

arxiv.org

 

 

728x90
TAGS.

Comments