https://arxiv.org/abs/2504.17192?utm_source=pytorchkr&ref=pytorchkr Paper2Code: Automating Code Generation from Scientific Papers in Machine LearningDespite the rapid growth of machine learning research, corresponding code implementations are often unavailable, making it slow and labor-intensive for researchers to reproduce results and build upon prior work. In the meantime, recent Large Languag..
1. 연구 배경 및 문제 제기 대형 언어 모델(LLM)은 파인튜닝(finetuning)을 통해 새로운 과제에 적응할 수 있지만, 학습한 관계를 단순히 뒤집거나(예: “B의 어머니는 A다”를 학습했을 때 “A의 아들은 누구인가?”를 유추) 논리적 추론을 수행하는 데 어려움을 보인다. 반면 문맥 내 학습(in‑context learning, ICL)은 서로 다른 귀납적 편향을 지녀 일부 상황에서 더 유연한 일반화를 달성한다. 2. 통제된 실험 설계 사전학습 지식과 겹치지 않도록 허구의 용어와 구조로 구성된 여러 합성 데이터셋(단순 역전, 삼단논법, 유명인 역전 데이터셋, 의미 계층 구조 데이터셋 등)을 만들었다. 각 데이터셋에 대해 (a) 파인튜닝, (b) 전체 훈련 데이터를 문맥으로 제공하는 ICL, ..
1. 개념 전통적인 머신러닝 모델은 주로 특정 작업을 처리하도록 설계되었으며, 이는 학습 데이터에 기반한 입력-출력 쌍에 의해 한정되었습니다. 이러한 모델은 훈련된 범위를 벗어난 작업에 대해서는 성능이 크게 저하되었습니다. 그러나 대규모 언어 모델(LLMs)의 등장으로 자연어 과제를 해결하는 방식에 큰 전환점이 생겼습니다. In-context learning, ICL은 작업 예시(demonstrations)를 자연어 형식의 프롬프트 안에 통합하여 사용하는 기법입니다. 이 방식은 사전학습된 LLM이 파인튜닝 없이도 새로운 작업을 수행할 수 있게 해줍니다. 전통적인 지도학습(supervised learning)은 역전파(backpropagation)를 통한 학습 단계가 필수이며, 이를 통해 모델 파라미터를 ..
Chain-of-Thought(사고의 연쇄) 프롬프팅은 LLM에게 문제 해결 과정을 단계별로 설명하도록 유도하는 기법이다. 즉, 모델이 답변을 내놓기 전에 “생각”을 말하듯 중간 추론 과정을 출력하게 한다. 예를 들어 “사라가 셔츠 3장을 각각 20달러에, 청바지 2벌을 각각 50달러에 산 뒤 총액의 10% 할인을 받았다. 최종 지불액은 얼마인가?”라는 문제에 대해, CoT 프롬프트는 “셔츠 비용: 3×20=$60; 청바지 비용: 2×50=$100; 할인 전 총액: $160; 할인액: 10%×160=$16; 최종 지불액: $160–16=$144”와 같은 중간 계산 과정을 모델이 생성하도록 한다. 이렇게 중간 과정을 명시하면 모델이 단계별 추론을 통해 더 정확한 답을 도출할 수 있다. 연구에 따르면,..
1. 개념 소개 및 등장 배경 대규모 사전학습 언어 모델(LLM)은 방대한 지식을 파라미터에 내장하지만, 지식집약형 작업에서는 정확한 정보 접근과 조작에 한계가 있습니다ar5iv.org. 예를 들어 RAG(2020) 논문에서는 사전학습된 시퀀스-투-시퀀스(seq2seq) 모델(파라메트릭 메모리)과 위키피디아 지문을 색인한 밀집 검색(DPR) 모듈(비파라메트릭 메모리)을 결합하여, 입력 질문에 관련 문서를 검색한 후 이를 컨텍스트로 답변을 생성한다고 소개합니다ar5iv.orgarxiv.org. 이렇게 함으로써 기존 모델보다 질의응답 정확도를 크게 높이고, 생성한 답변의 구체성과 사실성도 개선할 수 있었습니다arxiv.orgar5iv.org. RAG는 특히 답변 근거 제시(provenance)와 지식 업데이..
1. LoRA(Low-Rank Adaptation)이란? LoRA는 거대한 사전학습 모델을 효율적으로 미세조정(fine-tuning)하기 위해 개발된 기법입니다. 전통적인 풀 파인튜닝에서는 모델의 모든 가중치를 업데이트해야 하지만, 모델 크기가 커질수록 계산량과 메모리 부담이 크게 늘어납니다. 예를 들어 GPT-3 175B 모델은 1750억 개의 파라미터를 전부 업데이트해야 하므로, 각각의 작업마다 별도 모델을 저장·운영하는 것이 거의 불가능합니다. 이에 LoRA는 사전학습된 가중치는 고정(freeze)한 채, 저차원 행렬을 각 Transformer 층에 추가하여 학습하는 방식을 제안합니다ar5iv.orghuggingface.co. 즉, 기존 가중치 $W^{(0)}$는 그대로 두고, 그 변화량 $\De..