바이브 코딩 바이블: AI 에이전트 시대의 새로운 코딩 패러다임 - tech.kakao.com 바이브 코딩 바이블: AI 에이전트 시대의 새로운 코딩 패러다임 - tech.kakao.com1. 바이브 코딩과 AI 에이전트 안드레이 카파시(Andrej Karpathy)는...tech.kakao.com 1. 코드 작성 (Code Generation) 원하는 프로그램이나 함수의 동작을 자연어로 설명하면, AI가 해당 기능을 수행하는 코드를 생성해주는 프롬프트입니다. 예를 들어 기능 명세나 요구사항을 프롬프트로 제공하면, LLM은 그에 맞는 언어의 코드를 작성합니다. 이는 새로운 기능 구현이나 보일러플레이트 코드 생성에 특히 유용하며, 개발자는 AI가 생성한 코드를 기반으로 필요한 수정을 가해 최종 완성도를 ..
1. 연구 배경 및 문제 제기 대형 언어 모델(LLM)은 파인튜닝(finetuning)을 통해 새로운 과제에 적응할 수 있지만, 학습한 관계를 단순히 뒤집거나(예: “B의 어머니는 A다”를 학습했을 때 “A의 아들은 누구인가?”를 유추) 논리적 추론을 수행하는 데 어려움을 보인다. 반면 문맥 내 학습(in‑context learning, ICL)은 서로 다른 귀납적 편향을 지녀 일부 상황에서 더 유연한 일반화를 달성한다. 2. 통제된 실험 설계 사전학습 지식과 겹치지 않도록 허구의 용어와 구조로 구성된 여러 합성 데이터셋(단순 역전, 삼단논법, 유명인 역전 데이터셋, 의미 계층 구조 데이터셋 등)을 만들었다. 각 데이터셋에 대해 (a) 파인튜닝, (b) 전체 훈련 데이터를 문맥으로 제공하는 ICL, ..
1. 개념 전통적인 머신러닝 모델은 주로 특정 작업을 처리하도록 설계되었으며, 이는 학습 데이터에 기반한 입력-출력 쌍에 의해 한정되었습니다. 이러한 모델은 훈련된 범위를 벗어난 작업에 대해서는 성능이 크게 저하되었습니다. 그러나 대규모 언어 모델(LLMs)의 등장으로 자연어 과제를 해결하는 방식에 큰 전환점이 생겼습니다. In-context learning, ICL은 작업 예시(demonstrations)를 자연어 형식의 프롬프트 안에 통합하여 사용하는 기법입니다. 이 방식은 사전학습된 LLM이 파인튜닝 없이도 새로운 작업을 수행할 수 있게 해줍니다. 전통적인 지도학습(supervised learning)은 역전파(backpropagation)를 통한 학습 단계가 필수이며, 이를 통해 모델 파라미터를 ..
Chain-of-Thought(사고의 연쇄) 프롬프팅은 LLM에게 문제 해결 과정을 단계별로 설명하도록 유도하는 기법이다. 즉, 모델이 답변을 내놓기 전에 “생각”을 말하듯 중간 추론 과정을 출력하게 한다. 예를 들어 “사라가 셔츠 3장을 각각 20달러에, 청바지 2벌을 각각 50달러에 산 뒤 총액의 10% 할인을 받았다. 최종 지불액은 얼마인가?”라는 문제에 대해, CoT 프롬프트는 “셔츠 비용: 3×20=$60; 청바지 비용: 2×50=$100; 할인 전 총액: $160; 할인액: 10%×160=$16; 최종 지불액: $160–16=$144”와 같은 중간 계산 과정을 모델이 생성하도록 한다. 이렇게 중간 과정을 명시하면 모델이 단계별 추론을 통해 더 정확한 답을 도출할 수 있다. 연구에 따르면,..
1. 개념 소개 및 등장 배경 대규모 사전학습 언어 모델(LLM)은 방대한 지식을 파라미터에 내장하지만, 지식집약형 작업에서는 정확한 정보 접근과 조작에 한계가 있습니다ar5iv.org. 예를 들어 RAG(2020) 논문에서는 사전학습된 시퀀스-투-시퀀스(seq2seq) 모델(파라메트릭 메모리)과 위키피디아 지문을 색인한 밀집 검색(DPR) 모듈(비파라메트릭 메모리)을 결합하여, 입력 질문에 관련 문서를 검색한 후 이를 컨텍스트로 답변을 생성한다고 소개합니다ar5iv.orgarxiv.org. 이렇게 함으로써 기존 모델보다 질의응답 정확도를 크게 높이고, 생성한 답변의 구체성과 사실성도 개선할 수 있었습니다arxiv.orgar5iv.org. RAG는 특히 답변 근거 제시(provenance)와 지식 업데이..
https://discuss.pytorch.kr/t/deep-research-llm/6112 [Deep Research] 강화학습의 개념과 주요 기법 분석, LLM에서의 활용 및 발전 방향에 대한 보고서들어가며 :pytorch:🇰🇷 최근 DeepSeek-R1 모델의 GRPO를 비롯하여 LLM 및 Multimodal LLM의 사후 학습 과정에서 강화학습(RL)을 적용하려는 시도가 많아지고 있습니다. 관련하여 강화학습의 개념과 주요 기discuss.pytorch.kr 1. 강화학습이란 무엇인가? 강화학습(Reinforcement Learning, RL)은 기계학습의 한 분야로, 에이전트(Agent)가 환경(Environment) 과 상호작용하면서 보상(Reward) 이라는 피드백을 받으며 시행착오(tr..