On the generalization of language modelsfrom in-context learning and finetuning: acontrolled study

1. 연구 배경 및 문제 제기

 

대형 언어 모델(LLM)은 파인튜닝(finetuning)을 통해 새로운 과제에 적응할 수 있지만, 학습한 관계를 단순히 뒤집거나(예: “B의 어머니는 A다”를 학습했을 때 “A의 아들은 누구인가?”를 유추) 논리적 추론을 수행하는 데 어려움을 보인다.

 

반면 문맥 내 학습(in‑context learning, ICL)은 서로 다른 귀납적 편향을 지녀 일부 상황에서 더 유연한 일반화를 달성한다.

 

 

2. 통제된 실험 설계

 

사전학습 지식과 겹치지 않도록 허구의 용어와 구조로 구성된 여러 합성 데이터셋(단순 역전, 삼단논법, 유명인 역전 데이터셋, 의미 계층 구조 데이터셋 등)을 만들었다.

 

각 데이터셋에 대해 (a) 파인튜닝, (b) 전체 훈련 데이터를 문맥으로 제공하는 ICL, (c) ICL로 생성한 추론을 파인튜닝 데이터에 추가하는 “증강 파인튜닝(augmented finetuning)” 방식으로 모델 성능을 비교 평가했다.

 

 

3. 핵심 실험 결과

 

1) 단순 역전 및 삼단논법: ICL이 파인튜닝보다 역전 관계나 삼단논법을 훨씬 잘 일반화함을 확인. 증강 파인튜닝은 ICL 수준 또는 그 이상 성능을 달성 .

 

2) 의미 계층 구조 벤치마크: 재학습 구문(단순 바꾸어 쓰기) → 역전 → 삼단논법 → 범주 홀드아웃 순으로 난도가 증가.

 

ICL이 전반적으로 파인튜닝을 앞서며, 특히 역전·삼단논법에서 격차가 크지만 범주 홀드아웃은 여전히 어려움.

 

증강 파인튜닝은 여러 분할(split)에서 ICL을 넘어서는 경우도 관찰 .

 

 

4. 증강 파인튜닝(Augmented Finetuning) 기법

 

1) 로컬 증강: 문장별로 재구성·역전 예시를 생성하여 훈련 데이터에 추가.

 

2) 글로벌 증강: 전체 문서 문맥을 활용해 모델로부터 새로운 추론(응집적 연역)을 생성.

 

이렇게 생성된 합성 추론을 파인튜닝 데이터에 포함하면, 모델이 문맥 없이도 더 유연하게 학습된 지식을 일반화할 수 있음 .

 

 

5. 정리 및 시사점

 

파인튜닝과 ICL은 서로 다른 귀납적 편향(inductive bias)을 지니며, ICL이 종종 더 유연한 일반화를 보인다.

 

그러나 ICL의 강점을 파인튜닝에 녹여내는 증강 전략을 통해, 실질적으로 파인튜닝만으로도 ICL 급의 일반화 성능을 달성 가능.

 

이는 언어 모델을 실제 과제에 적용할 때, 단순 파인튜닝뿐 아니라 “학습 시점에 문맥 내 추론을 활용한 데이터 증강”이 유용함을 제안한다 .

 

위 결과는 언어 모델의 학습 모드별 귀납적 편향을 이해하고, 실무에서 파인튜닝 효율을 높이기 위한 새로운 접근법을 제시하는 데 중요한 기여를 합니다.

 

--------------------------------------------------------------------------------------------------------------------------------------------------------------

 

https://arxiv.org/abs/2505.00661

 

On the generalization of language models from in-context learning and finetuning: a controlled study

Large language models exhibit exciting capabilities, yet can show surprisingly narrow generalization from finetuning. E.g. they can fail to generalize to simple reversals of relations they are trained on, or fail to make simple logical deductions based on

arxiv.org

 

1. introduction

 

대형 언어 모델은 흥미로운 능력을 보여주지만, 미세조정(fine-tuning)을 통해서는 일반화 능력이 의외로 제한적일 수 있습니다.

 

예를 들어, 학습된 관계의 단순한 반전을 일반화하지 못하거나, 학습된 정보를 바탕으로 한 간단한 논리적 추론조차 실패할 수 있습니다.

 

이러한 미세조정 기반 일반화 실패는 실제 응용에서 언어 모델의 활용을 방해할 수 있습니다.

 

반면, 언어 모델의 문맥 내 학습(in-context learning)은 다른 귀납적 편향(inductive bias)을 가지며, 어떤 경우에는 더 나은 일반화를 보여주기도 합니다.

 

본 연구에서는 문맥 내 학습과 미세조정 기반 학습 간의 일반화 차이를 탐구합니다.

 

이를 위해 우리는 모델이 미세조정 데이터를 기반으로 일반화하는 능력을 평가하고 개선하기 위한 여러 새로운 데이터셋을 구축했습니다.

 

이 데이터셋들은 사전 학습(pretraining) 중 얻은 지식과 분리된 형태로 지식을 제공함으로써, 일반화 능력을 깔끔하게 테스트할 수 있도록 설계되었습니다.

 

우리는 사전 학습된 대형 모델에 이러한 데이터셋의 일부 정보만을 문맥 또는 미세조정을 통해 제공한 뒤, 다양한 유형의 일반화를 요구하는 테스트셋에서 성능을 평가했습니다.

 

그 결과, 동일한 데이터 분포 조건에서는 문맥 내 학습이 미세조정보다 더 유연하게 일반화할 수 있음을 확인했습니다.

 

다만, 기존 연구에서 간과되었던 점도 발견했는데, 예컨대 더 큰 지식 구조 내에 포함된 반전 관계에 대해서는 미세조정이 일반화할 수 있는 경우도 있었습니다.

 

우리는 이러한 발견을 바탕으로, 미세조정 기반 일반화를 향상시키는 방법을 제안합니다.

 

바로 문맥 내 추론 결과를 미세조정 데이터에 추가하는 방식입니다.

 

이 방법은 다양한 데이터셋 분할 및 다른 벤치마크에서도 일반화 성능을 향상시키는 것으로 나타났습니다.

 

이러한 결과는 언어 모델에서 학습 방식에 따른 귀납적 편향을 이해하는 데 도움이 되며, 실제 모델 성능을 개선하는 데에도 중요한 시사점을 제공합니다.

 

-------------------------------------------------------------------------------------------------------------------------------------------------------

 

인터넷 텍스트 대규모 말뭉치에 대해 사전학습된 언어 모델(Language Models, LMs)은 **문맥 내 학습(in-context learning)**에서 효율적인 학습자로 작동합니다.

 

즉, 몇 가지 예시만으로도 새로운 인스턴스에 일반화하여 문제를 풀 수 있습니다(Brown et al., 2020; Gemini Team Google, 2023).

 

또한, 사전학습된 언어 모델은 상대적으로 적은 예시만으로도 **미세조정(fine-tuning)**을 통해 다운스트림 작업에 맞게 조정될 수 있습니다.

 

하지만 미세조정을 통해 좋은 일반화 성능을 얻기 위해서는 수백에서 수천 개의 예시가 필요한 경우가 많습니다(예: Kirstain et al., 2022; Vieira et al., 2024).

 

실제로, 특정 예시에 대해 미세조정한 모델이 보여주는 일반화 능력은 놀라울 정도로 제한적일 수 있습니다.

 

예를 들어, "B의 어머니는 A이다"라는 문장으로 미세조정된 모델이 "A의 아들은 누구인가?"라는 질문에는 일반화하지 못하는 경우가 있습니다(Berglund et al., 2024; cf. Allen-Zhu and Li, 2025).

 

그러나 이와 같은 역방향 관계에 대한 질문은 문맥 내에서 주어졌을 때는 잘 해결할 수 있습니다(예: Lampinen et al., 2024b).

 

또한, **트랜스포머 기반 모델은 파라미터(가중치)로부터의 일반화와 문맥으로부터의 일반화에서 서로 다른 귀납적 편향(inductive bias)**을 보입니다(cf. Chan et al., 2022b; Russin et al.; Shen et al., 2023).

 

그렇다면 문맥 내 학습과 미세조정 사이에 일반화 방식은 어떻게 다를까요?


그리고 이러한 차이는 새로운 작업이나 정보를 모델에 적용할 때 어떤 의미를 가질까요?

 

본 논문에서는 이러한 질문들을 탐구합니다.

이를 위해 우리는 사실적 지식을 기반으로 한 통제된 합성 데이터셋을 구축합니다.

 

이러한 데이터셋은 복잡하고 자기 일관적인 구조를 가지도록 설계하되, 사전학습 말뭉치에 포함되었을 가능성이 있는 지식과는 겹치지 않도록 구성합니다.

 

우리는 이 데이터셋을 학습(train)과 테스트(test) 세트로 나누되, 다양한 유형의 일반화가 요구되도록 설계합니다.

 

예를 들어, 관계의 **역방향 추론(reversal)**이나 **여러 논리 추론을 연결하여 삼단논법(syllogism)**을 구성하는 식입니다.

 

그 다음, 사전학습된 대형 언어 모델들이 미세조정(fine-tuning) 또는 **문맥 내 학습(in-context learning, ICL)**을 통해 이러한 테스트 세트에 얼마나 잘 일반화하는지를 평가합니다.

 

문맥 내 학습에서는 전체 학습 세트나 그 큰 부분을 프롬프트에 직접 삽입하는 방식을 사용합니다.

 

우리는 또한 **데이터 증강(data augmentation)**과 같은 다양한 일반화 향상 방법들을 실험합니다.

 

종합적으로 보면, 다양한 데이터셋에서 문맥 내 학습(ICL)이 미세조정보다 더 뛰어난 일반화 성능을 보였습니다.

 

그러나 미세조정의 일반화 성능도 향상시킬 수 있으며, 문맥 내 학습보다 더 좋은 일반화 성능을 발휘할 수 있습니다.

 

이를 위해서는 문맥 내 추론을 활용해 학습 데이터를 증강하고, 더 많은 학습 시간과 계산 자원을 투입하는 것이 필요합니다.

 

우리의 주요 기여는 다음과 같습니다:

 

사전학습된 언어 모델이 문맥 내 학습(in-context learning)과 미세조정(fine-tuning)에서 각각 보이는 일반화 양상의 차이를 연구합니다.


관계의 역방향 추론, 삼단논법 추론, 구성적 추론과 같은 체계적인 테스트셋에서 평가할 때, 전체 학습 데이터를 활용한 문맥 내 학습이 미세조정보다 일반적으로 더 나은 일반화 성능을 보임을 발견했습니다.


• 이러한 일반화 성능의 차이를 해소하기 위해, **문맥 내에서 언어 모델이 생성한 데이터 증강(augmentation)**을 활용하여 증강된 데이터를 학습 데이터에 추가하는 방식을 제안합니다.


• 이와 같은 데이터 증강을 통해 미세조정의 일반화 성능을 향상시킬 수 있으며, 문맥 내 학습과의 성능 격차를 줄일 수 있음을 보여줍니다.


• 또한, 문장 간 상관관계를 분해하는 미세조정 기법을 제안하여, 데이터 증강의 효과를 극대화할 수 있도록 합니다.

 

 

 

2. 증강 미세조정(augmented fine-tuning)

 

우리는 모델의 인컨텍스트 일반화 능력을 활용하여 파인튜닝 데이터셋의 커버리지를 개선하는 것을 주요 목표로 데이터셋 증강을 수행합니다.

 

이는 테스트 시 추가적인 문맥 정보 없이(out-of-context)도 일반화 성능을 높이는 것을 목표로, 인컨텍스트 추론을 위한 연산 자원을 학습 시점에 미리 사용하는 전략입니다.

 

구체적으로 우리는 두 가지 유형의 증강 전략을 고려합니다:

  • 로컬(Local) 전략: 특정 정보가 다양한 방식으로 사용될 수 있도록 유연성을 높입니다.
  • 글로벌(Global) 전략: 서로 다른 정보들 간의 연관성을 추론하도록 유도합니다.

각 전략은 서로 다른 문맥과 프롬프트를 사용합니다

  • 로컬(문장) 증강: 각 학습 데이터 포인트(예: 문장)를 더 유연하게 인코딩할 수 있도록 모델에게 증강을 요청합니다. 프롬프트에는 재표현(rephrasing)이나 역전(reversal) 예시들이 포함됩니다.
  • 글로벌(문서) 증강: 전체 학습 데이터셋을 문맥으로 연결한 뒤, 특정 문서를 제공하고 그 문서와 나머지 문서들 간의 관련 정보를 모델이 추론하도록 프롬프트합니다. 이는 더 긴 추론 경로(reasoning trace)를 생성하는 결과로 이어집니다.

 

1) local prompt

 

각 문장 자체로부터 추론 가능한 새로운 진술이나 바꿔 말한 표현들을 생성해 주세요.  
단순한 문장이라도 논리적으로 동등한 다양한 표현이 존재할 수 있습니다.  
존재 여부와 무관하게, 등장하는 개체들이 실제로 존재하는지와는 상관없이  
논리와 언어만을 사용하여 결론을 도출해 주세요.

문장: trillips는 zax보다 키가 크다.  
추론: trillips는 zax보다 키가 더 크다. zax는 trillips보다 작다.  
       zax는 trillips보다 키가 낮다.

문장: 참고: 공학은 과학보다 단순하다.  
추론: 과학은 공학보다 더 복잡하다. 공학은 과학보다 덜 복잡하다.  
       공학은 과학만큼 복잡하지 않다.

문장: "{text_to_augment}"

 

 

2) global prompt

 

지금부터 여러 문서를 제공하겠습니다.  
이 문서들을 문맥(context)으로 사용하여 마지막에 제시할 목표 문서로부터  
추론 가능한 모든 논리적 결과를 도출해 주세요.

먼저, 다음은 소스 문서들입니다:

{full_context}

이제 위 문맥을 사용하여, 아래 문서를 바꿔 말하거나  
그 문서가 담고 있는 진술들로부터 추론 가능한 결과를 논리적으로 도출해 주세요.  
가능한 한 명시적으로, 소스 문서의 형식을 따르며  
완전하게 작성해 주세요.

{target_document}

 

 

3. 문장 분할

Berglund et al.(2024)의 가상 인물 데이터셋이나 우리의 의미 구조 데이터셋처럼 여러 문장이 논리적 또는 의미적으로 연결된 문서들로 구성된 데이터셋에서는, 문장을 문장 단위로 분할하여 학습 예시로 사용하는 것이 파인튜닝 성능을 크게 향상시킵니다.

 

이는 데이터셋의 전체 크기나 gradient step 수를 고려한 후에도 여전히 유의미합니다.

 

우리는 문서를 두 가지 방식으로 분할하여 실험합니다:

  1. 독립 분할(Independent Splitting): 하나의 문서에 포함된 n개의 문장을 각각 독립적인 n개의 학습 예시로 분할합니다.
  2. 누적 분할(Cumulative Splitting): n개의 문장으로 구성된 문서를 누적적으로 분할하여, i번째 예시는 1번째 문장부터 i번째 문장까지 모두 포함하도록 구성합니다.

문장 분할이 모델 일반화에 미치는 영향은 부록 B.1에서 분석합니다. 이후 섹션에서는 특별한 언급이 없을 경우 독립 분할을 기본으로 가정합니다.

 

-----------------------------------------------------------------------------------------------------------------------------------------------------------

 

 

테스트 과제는 관계 역전(reversals), 삼단 논법(syllogisims) 추론, 계층적 의미 구조 해석 등 다양한 형태로 구성됐다.

 

예를 들어 "펨프(femp)는 글론(glon)보다 위험하다"라는 정보를 학습한 모델이 "글론은 펨프보다 덜 위험하다"는 사실을 유추할 수 있는지 또는 "모든 글론은 욤프(yomp)다"와 "모든 트로프(troff)는 글론이다"라는 말을 들은 모델이 "모든 트로프는 욤프다"라고 추론할 수 있을지를 평가했다.

 

 

 

 

 

 

 

 

 

 

 

그 결과 ICL 방식이 대부분의 과제에서 더 뛰어난 일반화 성능을 보였다. 특히, 관계 추론과 논리적 귀납과 같은 과제에서 유리한 것으로 나타났다. 

이처럼 ICL은 강력한 일반화 성능을 보여주지만, 매번 사용 시마다 대량의 문맥 정보를 입력해야 하므로 연산 비용이 높다는 단점이 있다. 

증강 미세조정은 ICL을 매번 수행할 필요 없이 미세조정된 모델을 다양한 입력에 대해 더 안정적이고 유연하게 동작하도록 만들 수 있다는 설명이다.

맷 람피넨 구글 딥마인드 연구과학자는 “데이터 증강이 추가 연산 비용을 요구하긴 하지만, 모델을 반복적으로 사용할 경우 전체 비용은 ICL 방식보다 낮다”라고 밝혔다.

또 미세조정만으로는 성능이 충분하지 않은 경우 증강 미세조정을 모색하는 것이 좋을 수 있다고 덧붙였다. 

https://www.aitimes.com/news/articleView.html?idxno=170363

 

구글, 새로운 '증강 미세조정' 제안..."ICL 일반화 강점에 미세조정 효율성 합쳐" - AI타임스

‘퓨샷 학습(Few-shot) 학습’이라고도 하는 ‘상황 내 학습(ICL)’이 새로운 과제에 대한 일반화 능력에서 미세조정(fine-tuning)보다 우수한 성능을 보이지만, 추론 계산에 더 많은 비용이 들어가는

www.aitimes.com

 

 

 

LLM의 in context learning 능력을 활용해서 합성 데이터셋을 만들어 fine tuning 데이터셋에 추가하여 fine tuning을 하면 성능이 향상될 수 있다는 것이 핵심인듯

728x90