통계학 세상
close
프로필 배경
프로필 로고

통계학 세상

  • 분류 전체보기 (1482)
    • 다시보는 통계학 (28)
    • 딥러닝 (306)
      • 딥러닝 기초 (63)
      • Computer Vision (76)
      • NLP (59)
      • Machine Reading Comprehensi.. (21)
      • light weight modeling (47)
      • Graph (17)
      • recommendation system (7)
      • reinforcement learning (2)
      • LLM (6)
      • Deep Learning Specializatio.. (7)
      • Diffusion (1)
    • AI 논문 (45)
      • AI trend research (42)
      • 고전이 된 AI 논문 (3)
    • 데이터 분석 프로젝트 연습 (0)
    • 프로그래밍 (291)
      • 프로그래밍 개론 (7)
      • Python (79)
      • Java (15)
      • C++ (9)
      • C# (0)
      • 비전공자를 위한 자바스크립트 (8)
      • Pandas (10)
      • Numpy (8)
      • Pytorch (30)
      • SQL (23)
      • Unity&C# (27)
      • Tensorflow.js (2)
      • git 가이드 (10)
      • 비전공자를 위한 Web (4)
      • React (17)
      • node.js (17)
      • FastAPI (7)
      • docker & jenkins (10)
      • R 프로그래밍 (8)
    • 알고리즘 (500)
      • 알고리즘 일반 (61)
      • Java 기초 (22)
      • C++ 기초 (22)
      • 브루트포스 (22)
      • DFS BFS 정복기 (28)
      • 그래프 이론 정복기 (21)
      • 분리집합 (7)
      • 최단거리 알고리즘 (21)
      • 최소 스패닝 트리 (5)
      • 다이나믹 프로그래밍 (64)
      • 구현,시뮬레이션 (11)
      • 이분 탐색 (17)
      • 정렬 알고리즘 (9)
      • 그리디 알고리즘 (30)
      • 투 포인터 알고리즘 (9)
      • 누적 합 알고리즘 (14)
      • 문자열 알고리즘 (17)
      • 자료구조(스택,큐,해시맵) (14)
      • 순열 사이클 분할 (1)
      • 슬라이딩 윈도우 (2)
      • 연결리스트 (3)
      • 분할 정복 (4)
      • 위상정렬 (3)
      • 세그먼트 트리 (14)
      • 유량 알고리즘 (1)
      • 이분 매칭 (2)
      • 고급 자료구조 (3)
      • 희소배열(더블링) (2)
      • 전처리 (1)
      • 게임이론 (8)
      • 비트마스킹 (8)
      • 애드 혹 알고리즘 (33)
      • 중간에서 만나기 (4)
      • 확률론 알고리즘 (3)
      • 선형대수학 알고리즘 (3)
      • 압축 알고리즘 (2)
      • 오프라인 쿼리 (1)
      • 정밀도 (3)
      • 재귀 연습장 (1)
      • 비둘기집 원리 (2)
      • 휴리스틱 (1)
      • 고급 알고리즘 (1)
      • 알고리즘 논문 (0)
    • 경쟁 프로그래밍 (22)
      • Atcoder (22)
    • 책 읽기 (79)
      • 비전공자도 이해할 수 있는 AI지식 (51)
      • 수학보다 데이터 문해력 (28)
    • 3D 모델링 (0)
      • blender (0)
    • 정수론 (75)
    • 선형대수학 (28)
    • 조합론 (11)
    • 정형데이터 (25)
    • 정보이론 (3)
    • Visualization (7)
    • 기하학 (29)
    • 컴퓨터과학(CS) (13)
    • 대수학 (4)
    • 데이터 해석 (6)
    • 금융 (1)
    • 읽을거리 (9)
  • 홈
  • 태그
  • 방명록

Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning

https://arxiv.org/abs/2504.17192?utm_source=pytorchkr&ref=pytorchkr Paper2Code: Automating Code Generation from Scientific Papers in Machine LearningDespite the rapid growth of machine learning research, corresponding code implementations are often unavailable, making it slow and labor-intensive for researchers to reproduce results and build upon prior work. In the meantime, recent Large Languag..

  • format_list_bulleted AI 논문/AI trend research
  • · 2025. 8. 21.
  • textsms
On the generalization of language modelsfrom in-context learning and finetuning: acontrolled study

On the generalization of language modelsfrom in-context learning and finetuning: acontrolled study

1. 연구 배경 및 문제 제기 대형 언어 모델(LLM)은 파인튜닝(finetuning)을 통해 새로운 과제에 적응할 수 있지만, 학습한 관계를 단순히 뒤집거나(예: “B의 어머니는 A다”를 학습했을 때 “A의 아들은 누구인가?”를 유추) 논리적 추론을 수행하는 데 어려움을 보인다. 반면 문맥 내 학습(in‑context learning, ICL)은 서로 다른 귀납적 편향을 지녀 일부 상황에서 더 유연한 일반화를 달성한다. 2. 통제된 실험 설계 사전학습 지식과 겹치지 않도록 허구의 용어와 구조로 구성된 여러 합성 데이터셋(단순 역전, 삼단논법, 유명인 역전 데이터셋, 의미 계층 구조 데이터셋 등)을 만들었다. 각 데이터셋에 대해 (a) 파인튜닝, (b) 전체 훈련 데이터를 문맥으로 제공하는 ICL, ..

  • format_list_bulleted AI 논문/AI trend research
  • · 2025. 5. 22.
  • textsms
in context learning에 대하여 학습하기

in context learning에 대하여 학습하기

1. 개념 전통적인 머신러닝 모델은 주로 특정 작업을 처리하도록 설계되었으며, 이는 학습 데이터에 기반한 입력-출력 쌍에 의해 한정되었습니다. 이러한 모델은 훈련된 범위를 벗어난 작업에 대해서는 성능이 크게 저하되었습니다. 그러나 대규모 언어 모델(LLMs)의 등장으로 자연어 과제를 해결하는 방식에 큰 전환점이 생겼습니다. In-context learning, ICL은 작업 예시(demonstrations)를 자연어 형식의 프롬프트 안에 통합하여 사용하는 기법입니다. 이 방식은 사전학습된 LLM이 파인튜닝 없이도 새로운 작업을 수행할 수 있게 해줍니다. 전통적인 지도학습(supervised learning)은 역전파(backpropagation)를 통한 학습 단계가 필수이며, 이를 통해 모델 파라미터를 ..

  • format_list_bulleted AI 논문/AI trend research
  • · 2025. 5. 20.
  • textsms
Chain-of-Thought Prompting 개념 학습하기

Chain-of-Thought Prompting 개념 학습하기

Chain-of-Thought(사고의 연쇄) 프롬프팅은 LLM에게 문제 해결 과정을 단계별로 설명하도록 유도하는 기법이다. 즉, 모델이 답변을 내놓기 전에 “생각”을 말하듯 중간 추론 과정을 출력하게 한다. 예를 들어 “사라가 셔츠 3장을 각각 20달러에, 청바지 2벌을 각각 50달러에 산 뒤 총액의 10% 할인을 받았다. 최종 지불액은 얼마인가?”라는 문제에 대해, CoT 프롬프트는 “셔츠 비용: 3×20=$60; 청바지 비용: 2×50=$100; 할인 전 총액: $160; 할인액: 10%×160=$16; 최종 지불액: $160–16=$144”와 같은 중간 계산 과정을 모델이 생성하도록 한다. 이렇게 중간 과정을 명시하면 모델이 단계별 추론을 통해 더 정확한 답을 도출할 수 있다. 연구에 따르면,..

  • format_list_bulleted AI 논문/AI trend research
  • · 2025. 5. 6.
  • textsms
RAG(Retrieval-Augmented Generation) 핵심 개념 학습하기

RAG(Retrieval-Augmented Generation) 핵심 개념 학습하기

1. 개념 소개 및 등장 배경 대규모 사전학습 언어 모델(LLM)은 방대한 지식을 파라미터에 내장하지만, 지식집약형 작업에서는 정확한 정보 접근과 조작에 한계가 있습니다ar5iv.org. 예를 들어 RAG(2020) 논문에서는 사전학습된 시퀀스-투-시퀀스(seq2seq) 모델(파라메트릭 메모리)과 위키피디아 지문을 색인한 밀집 검색(DPR) 모듈(비파라메트릭 메모리)을 결합하여, 입력 질문에 관련 문서를 검색한 후 이를 컨텍스트로 답변을 생성한다고 소개합니다ar5iv.orgarxiv.org. 이렇게 함으로써 기존 모델보다 질의응답 정확도를 크게 높이고, 생성한 답변의 구체성과 사실성도 개선할 수 있었습니다arxiv.orgar5iv.org. RAG는 특히 답변 근거 제시(provenance)와 지식 업데이..

  • format_list_bulleted AI 논문/AI trend research
  • · 2025. 5. 5.
  • textsms
LoRA(Low-Rank Adaptation)에 대한 개념 간단한 학습

LoRA(Low-Rank Adaptation)에 대한 개념 간단한 학습

1. LoRA(Low-Rank Adaptation)이란? LoRA는 거대한 사전학습 모델을 효율적으로 미세조정(fine-tuning)하기 위해 개발된 기법입니다. 전통적인 풀 파인튜닝에서는 모델의 모든 가중치를 업데이트해야 하지만, 모델 크기가 커질수록 계산량과 메모리 부담이 크게 늘어납니다. 예를 들어 GPT-3 175B 모델은 1750억 개의 파라미터를 전부 업데이트해야 하므로, 각각의 작업마다 별도 모델을 저장·운영하는 것이 거의 불가능합니다. 이에 LoRA는 사전학습된 가중치는 고정(freeze)한 채, 저차원 행렬을 각 Transformer 층에 추가하여 학습하는 방식을 제안합니다ar5iv.orghuggingface.co. 즉, 기존 가중치 $W^{(0)}$는 그대로 두고, 그 변화량 $\De..

  • format_list_bulleted AI 논문/AI trend research
  • · 2025. 5. 4.
  • textsms
  • navigate_before
  • 1
  • 2
  • 3
  • 4
  • ···
  • 8
  • navigate_next
공지사항
전체 카테고리
  • 분류 전체보기 (1482)
    • 다시보는 통계학 (28)
    • 딥러닝 (306)
      • 딥러닝 기초 (63)
      • Computer Vision (76)
      • NLP (59)
      • Machine Reading Comprehensi.. (21)
      • light weight modeling (47)
      • Graph (17)
      • recommendation system (7)
      • reinforcement learning (2)
      • LLM (6)
      • Deep Learning Specializatio.. (7)
      • Diffusion (1)
    • AI 논문 (45)
      • AI trend research (42)
      • 고전이 된 AI 논문 (3)
    • 데이터 분석 프로젝트 연습 (0)
    • 프로그래밍 (291)
      • 프로그래밍 개론 (7)
      • Python (79)
      • Java (15)
      • C++ (9)
      • C# (0)
      • 비전공자를 위한 자바스크립트 (8)
      • Pandas (10)
      • Numpy (8)
      • Pytorch (30)
      • SQL (23)
      • Unity&C# (27)
      • Tensorflow.js (2)
      • git 가이드 (10)
      • 비전공자를 위한 Web (4)
      • React (17)
      • node.js (17)
      • FastAPI (7)
      • docker & jenkins (10)
      • R 프로그래밍 (8)
    • 알고리즘 (500)
      • 알고리즘 일반 (61)
      • Java 기초 (22)
      • C++ 기초 (22)
      • 브루트포스 (22)
      • DFS BFS 정복기 (28)
      • 그래프 이론 정복기 (21)
      • 분리집합 (7)
      • 최단거리 알고리즘 (21)
      • 최소 스패닝 트리 (5)
      • 다이나믹 프로그래밍 (64)
      • 구현,시뮬레이션 (11)
      • 이분 탐색 (17)
      • 정렬 알고리즘 (9)
      • 그리디 알고리즘 (30)
      • 투 포인터 알고리즘 (9)
      • 누적 합 알고리즘 (14)
      • 문자열 알고리즘 (17)
      • 자료구조(스택,큐,해시맵) (14)
      • 순열 사이클 분할 (1)
      • 슬라이딩 윈도우 (2)
      • 연결리스트 (3)
      • 분할 정복 (4)
      • 위상정렬 (3)
      • 세그먼트 트리 (14)
      • 유량 알고리즘 (1)
      • 이분 매칭 (2)
      • 고급 자료구조 (3)
      • 희소배열(더블링) (2)
      • 전처리 (1)
      • 게임이론 (8)
      • 비트마스킹 (8)
      • 애드 혹 알고리즘 (33)
      • 중간에서 만나기 (4)
      • 확률론 알고리즘 (3)
      • 선형대수학 알고리즘 (3)
      • 압축 알고리즘 (2)
      • 오프라인 쿼리 (1)
      • 정밀도 (3)
      • 재귀 연습장 (1)
      • 비둘기집 원리 (2)
      • 휴리스틱 (1)
      • 고급 알고리즘 (1)
      • 알고리즘 논문 (0)
    • 경쟁 프로그래밍 (22)
      • Atcoder (22)
    • 책 읽기 (79)
      • 비전공자도 이해할 수 있는 AI지식 (51)
      • 수학보다 데이터 문해력 (28)
    • 3D 모델링 (0)
      • blender (0)
    • 정수론 (75)
    • 선형대수학 (28)
    • 조합론 (11)
    • 정형데이터 (25)
    • 정보이론 (3)
    • Visualization (7)
    • 기하학 (29)
    • 컴퓨터과학(CS) (13)
    • 대수학 (4)
    • 데이터 해석 (6)
    • 금융 (1)
    • 읽을거리 (9)
최근 글
인기 글
최근 댓글
태그
  • #NLP
  • #정수론
  • #파이썬
  • #프로그래밍
  • #딥러닝
  • #머신러닝
  • #알고리즘
  • #python
  • #코딩테스트
  • #백준
전체 방문자
오늘
어제
전체
Copyright © 쭈미로운 생활 All rights reserved.
Designed by JJuum

티스토리툴바