통계학 세상
close
프로필 배경
프로필 로고

통계학 세상

  • 분류 전체보기 (1480)
    • 다시보는 통계학 (28)
    • 딥러닝 (306)
      • 딥러닝 기초 (63)
      • Computer Vision (76)
      • NLP (59)
      • Machine Reading Comprehensi.. (21)
      • light weight modeling (47)
      • Graph (17)
      • recommendation system (7)
      • reinforcement learning (2)
      • LLM (6)
      • Deep Learning Specializatio.. (7)
      • Diffusion (1)
    • AI 논문 (45)
      • AI trend research (42)
      • 고전이 된 AI 논문 (3)
    • 데이터 분석 프로젝트 연습 (0)
    • 프로그래밍 (291)
      • 프로그래밍 개론 (7)
      • Python (79)
      • Java (15)
      • C++ (9)
      • C# (0)
      • 비전공자를 위한 자바스크립트 (8)
      • Pandas (10)
      • Numpy (8)
      • Pytorch (30)
      • SQL (23)
      • Unity&C# (27)
      • Tensorflow.js (2)
      • git 가이드 (10)
      • 비전공자를 위한 Web (4)
      • React (17)
      • node.js (17)
      • FastAPI (7)
      • docker & jenkins (10)
      • R 프로그래밍 (8)
    • 알고리즘 (499)
      • 알고리즘 일반 (61)
      • Java 기초 (22)
      • C++ 기초 (22)
      • 브루트포스 (22)
      • DFS BFS 정복기 (28)
      • 그래프 이론 정복기 (21)
      • 분리집합 (7)
      • 최단거리 알고리즘 (21)
      • 최소 스패닝 트리 (5)
      • 다이나믹 프로그래밍 (64)
      • 구현,시뮬레이션 (11)
      • 이분 탐색 (17)
      • 정렬 알고리즘 (9)
      • 그리디 알고리즘 (30)
      • 투 포인터 알고리즘 (9)
      • 누적 합 알고리즘 (14)
      • 문자열 알고리즘 (17)
      • 자료구조(스택,큐,해시맵) (14)
      • 순열 사이클 분할 (1)
      • 슬라이딩 윈도우 (2)
      • 연결리스트 (3)
      • 분할 정복 (4)
      • 위상정렬 (3)
      • 세그먼트 트리 (14)
      • 유량 알고리즘 (1)
      • 이분 매칭 (2)
      • 고급 자료구조 (3)
      • 희소배열(더블링) (2)
      • 전처리 (1)
      • 게임이론 (8)
      • 비트마스킹 (7)
      • 애드 혹 알고리즘 (33)
      • 중간에서 만나기 (4)
      • 확률론 알고리즘 (3)
      • 선형대수학 알고리즘 (3)
      • 압축 알고리즘 (2)
      • 오프라인 쿼리 (1)
      • 정밀도 (3)
      • 재귀 연습장 (1)
      • 비둘기집 원리 (2)
      • 휴리스틱 (1)
      • 고급 알고리즘 (1)
      • 알고리즘 논문 (0)
    • 경쟁 프로그래밍 (22)
      • Atcoder (22)
    • 책 읽기 (79)
      • 비전공자도 이해할 수 있는 AI지식 (51)
      • 수학보다 데이터 문해력 (28)
    • 3D 모델링 (0)
      • blender (0)
    • 정수론 (74)
    • 선형대수학 (28)
    • 조합론 (11)
    • 정형데이터 (25)
    • 정보이론 (3)
    • Visualization (7)
    • 기하학 (29)
    • 컴퓨터과학(CS) (13)
    • 대수학 (4)
    • 데이터 해석 (6)
    • 금융 (1)
    • 읽을거리 (9)
  • 홈
  • 태그
  • 방명록
Regularization에 대해 꼭 생각해봐야하는 점(L2 regularization, dropout의 단점, early stopping의 단점, data augmentation의 단점)

Regularization에 대해 꼭 생각해봐야하는 점(L2 regularization, dropout의 단점, early stopping의 단점, data augmentation의 단점)

모델이 validation set에 성능을 내지 못할때, training data에 overfitting이 되었을때 데이터를 더 많이 얻는 것은 좋은 방법이지만 항상 그럴 수는 없다. 그럴때 시도하면 좋은 것이 regularization L2 regularization은 가중치 W의 L2 norm, L1 regularization은 가중치 W의 L1 norm을 더해주는데... 1. 여기서 하나 bias도 parameter인데 왜 가중치 W 항만 더해주는것인가? 모델의 거의 모든 parameter가 W에 집중되어 있기 때문에 bias를 더할수도 있지만 계산비용 대비 거의 차이가 없다고 한다 2. L2 regularization을 일반적으로 많이 사용한다. L1 regularization을 사용하면 가중치 ..

  • format_list_bulleted 딥러닝/Deep Learning Specialization
  • · 2024. 1. 13.
  • textsms
딥러닝 모델 학습의 기본 개념 복기하기

딥러닝 모델 학습의 기본 개념 복기하기

1. 기계학습 구성 요소 경험사례, 모델, 평가기준 인공신경망 같은 모델을 학습시키고자 한다면..? 많은 경험사례를 통한 반복학습 입력과 기대하는 출력의 pair를 반복적으로 보여줌 모델한테 보여주는건 좋은데 모델이 학습을 잘 하고있는지 기준이 필요함 학습을 못하고있으면 잘하도록 만들어야하니까 이러한 평가 기준이 cost(loss function) 2. 가장 좋은 모델 f를 찾는 방법? 기대하는 출력과 모델이 데이터를 보고 낸 출력 사이 차이가 최소화가 되도록 하는 모델을 찾는 것 기대하는 출력과 모델이 낸 출력 사이 차이를 최소화시키도록 만드는 방향으로 학습 3. 예시로 이해하는 기계학습 시간의 흐름과 주가와의 관계를 파악 시간을 넣어주면 모델이 해당하는 기댓값 주가를 출력 과거의 결과가 다음같이 나온..

  • format_list_bulleted 딥러닝/딥러닝 기초
  • · 2023. 2. 24.
  • textsms
pruning 기본 알고리즘, regularization과의 연관성 알아보기

pruning 기본 알고리즘, regularization과의 연관성 알아보기

1. iterative pruning network가 존재하면 neuron weight들의 중요도를 계산함 중요도가 적은 weight는 적절하게 제거함 이후 데이터를 다시 넣어 fine-tuning을 수행하면서 weight를 업데이트 pruning을 계속하고 싶으면 weight의 중요도를 다시 계산하여 위 과정을 반복 pruning을 중단하고 싶으면 그대로 사용.. 단 1번만 할 수는 있지만 보통 여러번 반복 pruning을 수행함 2. pruning의 알고리즘 N이 pruning의 반복수이고 X가 훈련데이터(fine-tuning에도 사용) 먼저 weight를 초기화하고 network를 training하여 weight를 convergence시킴 weight의 차원과 크기가 동일한 1로 가득찬 mask 행..

  • format_list_bulleted 딥러닝/light weight modeling
  • · 2022. 11. 9.
  • textsms
딥러닝 경량화 기법 pruning은 무엇이고 왜 등장했는가

딥러닝 경량화 기법 pruning은 무엇이고 왜 등장했는가

0. weighted sum model   원소들에 어떤 가중치들을 곱하여 선형결합을 한 형태  원소들의 가중평균 decision theory에서 무언가를 결정하고자 할 때 중요한 요소는 가중치를 크게 부여하고  덜 중요한 요소는 가중치를 적게 부여한다는 것에서 의미를 가짐 neural network에서 학습에 중요한 parameter도 있고 중요하지 않은 parameter도 있는데  안중요한 parameter를 지우겠다는 pruning의 핵심 원리와도 일맥상통  cross entropy도 일종의 weighted sum이다.    1. motivation 태어날 때 50조개의 neuron이 있는데 1년 뒤에는 1000조개의 neuron이 있다고함 이제 어른이 되면서 자주 쓰는 neuron은 보존하면서 자..

  • format_list_bulleted 딥러닝/light weight modeling
  • · 2022. 11. 9.
  • textsms
AlexNet의 핵심 아이디어

AlexNet의 핵심 아이디어

1. LeNet 1998년 Yann LeCun이 간단한 CNN구조를 소개했다 convolution layer 2번과 fully connected layer 2번을 반복했다 한글자 단위 특히 우편물 번호 인식에 크게 성공하여 우편 운송의 혁신에 기여했다고 함 2. AlexNet LeNet의 기본 구조에서 아이디어를 가져왔다 그런데 hidden layer를 7층으로 쌓고 6000만 parameter를 사용 학습데이터도 ImageNet에서 어마어마하게 큰 120만 dataset을 사용했다 ReLU와 dropout이라는 지금도 사용하는 강력한 기법을 사용했다 재미있는 점은 첫번째로 두개의 pass로 나눴다는 것인데 당시 GPU가 부족해서 2개의 forward pass로 나눠서 올렸다 중간에 activation이..

  • format_list_bulleted 딥러닝/Computer Vision
  • · 2022. 2. 6.
  • textsms
여러가지 regularization 기법

여러가지 regularization 기법

1. regularization generalization이 잘 되게하고자 학습을 방해하는 요소를 추가하여 학습뿐만 아니라 test에도 잘 동작하는 모형을 만드는 방법 여러가지 방법들 모두 시도해보면서 잘 되면 좋고 아님 말고… 2. Early stopping Early stopping은 iteration이 증가할 수록 test error는 증가하니 증가하기 전에 멈추자는 원리 특히 test data는 학습 과정에서 사용하면 안되니까 train data의 일부인 validation set으로 평가했다는 점이 주목할만 하다. 3. Parameter norm penalty Parameter norm penalty는 네트워크의 parameter가 크기면에서 너무 커지지 않았으면 하는 바람에서 나온 것 L1, ..

  • format_list_bulleted 딥러닝/딥러닝 기초
  • · 2021. 12. 26.
  • textsms
  • navigate_before
  • 1
  • 2
  • navigate_next
공지사항
전체 카테고리
  • 분류 전체보기 (1480)
    • 다시보는 통계학 (28)
    • 딥러닝 (306)
      • 딥러닝 기초 (63)
      • Computer Vision (76)
      • NLP (59)
      • Machine Reading Comprehensi.. (21)
      • light weight modeling (47)
      • Graph (17)
      • recommendation system (7)
      • reinforcement learning (2)
      • LLM (6)
      • Deep Learning Specializatio.. (7)
      • Diffusion (1)
    • AI 논문 (45)
      • AI trend research (42)
      • 고전이 된 AI 논문 (3)
    • 데이터 분석 프로젝트 연습 (0)
    • 프로그래밍 (291)
      • 프로그래밍 개론 (7)
      • Python (79)
      • Java (15)
      • C++ (9)
      • C# (0)
      • 비전공자를 위한 자바스크립트 (8)
      • Pandas (10)
      • Numpy (8)
      • Pytorch (30)
      • SQL (23)
      • Unity&C# (27)
      • Tensorflow.js (2)
      • git 가이드 (10)
      • 비전공자를 위한 Web (4)
      • React (17)
      • node.js (17)
      • FastAPI (7)
      • docker & jenkins (10)
      • R 프로그래밍 (8)
    • 알고리즘 (499)
      • 알고리즘 일반 (61)
      • Java 기초 (22)
      • C++ 기초 (22)
      • 브루트포스 (22)
      • DFS BFS 정복기 (28)
      • 그래프 이론 정복기 (21)
      • 분리집합 (7)
      • 최단거리 알고리즘 (21)
      • 최소 스패닝 트리 (5)
      • 다이나믹 프로그래밍 (64)
      • 구현,시뮬레이션 (11)
      • 이분 탐색 (17)
      • 정렬 알고리즘 (9)
      • 그리디 알고리즘 (30)
      • 투 포인터 알고리즘 (9)
      • 누적 합 알고리즘 (14)
      • 문자열 알고리즘 (17)
      • 자료구조(스택,큐,해시맵) (14)
      • 순열 사이클 분할 (1)
      • 슬라이딩 윈도우 (2)
      • 연결리스트 (3)
      • 분할 정복 (4)
      • 위상정렬 (3)
      • 세그먼트 트리 (14)
      • 유량 알고리즘 (1)
      • 이분 매칭 (2)
      • 고급 자료구조 (3)
      • 희소배열(더블링) (2)
      • 전처리 (1)
      • 게임이론 (8)
      • 비트마스킹 (7)
      • 애드 혹 알고리즘 (33)
      • 중간에서 만나기 (4)
      • 확률론 알고리즘 (3)
      • 선형대수학 알고리즘 (3)
      • 압축 알고리즘 (2)
      • 오프라인 쿼리 (1)
      • 정밀도 (3)
      • 재귀 연습장 (1)
      • 비둘기집 원리 (2)
      • 휴리스틱 (1)
      • 고급 알고리즘 (1)
      • 알고리즘 논문 (0)
    • 경쟁 프로그래밍 (22)
      • Atcoder (22)
    • 책 읽기 (79)
      • 비전공자도 이해할 수 있는 AI지식 (51)
      • 수학보다 데이터 문해력 (28)
    • 3D 모델링 (0)
      • blender (0)
    • 정수론 (74)
    • 선형대수학 (28)
    • 조합론 (11)
    • 정형데이터 (25)
    • 정보이론 (3)
    • Visualization (7)
    • 기하학 (29)
    • 컴퓨터과학(CS) (13)
    • 대수학 (4)
    • 데이터 해석 (6)
    • 금융 (1)
    • 읽을거리 (9)
최근 글
인기 글
최근 댓글
태그
  • #NLP
  • #프로그래밍
  • #머신러닝
  • #코딩테스트
  • #python
  • #파이썬
  • #알고리즘
  • #딥러닝
  • #백준
  • #정수론
전체 방문자
오늘
어제
전체
Copyright © 쭈미로운 생활 All rights reserved.
Designed by JJuum

티스토리툴바