Loading...
2023. 1. 2. 01:45

convolution의 backpropagation 대충

1. convolution은 미분해도 여전히 convolution convolution을 미분하면 도함수와 convolution이 된다. 앞에 있는 f가 커널이라는 거 알지? 2. convolution의 직관적인 계산 그림 처음에는 w1,w2,w3가 x1,x2,x3에 만나서 o1 다음으로 한칸 옆으로 가서 x2,x3,x4를 만나서 o2 다음으로 한칸 옆으로 가서 x3,x4,x5를 만나서 o3 backpropagation을 위해 미분을 해보면 여전히 kernel과의 convolution이 된다는 것을 위에서 보였으므로 왜 x로 전달되느냐 oi의 미분이 xi이기 때문임 $\delta$는 loss를 o로 편미분한 값이다. loss를 w로 미분한것이 $\delta$와 x의 곱으로 나타남 convolution을 ..

2022. 12. 31. 18:20

batch size는 어떻게 설정해야하는가?

그냥 아무거나 정해도 되는 것 같지만 대단히 중요한 parameter 데이터 10만개 전부를 batch하니 gpu가 터지고 1개씩만 쓰자니 너무 오래 걸림 batch size가 커질수록 train,test function의 sharp minimizer에 도달하고 batch size가 작아질수록 flat minimizer에 도달한다는 것이 실험적으로 증명한 논문이 있다 위와 같은 그림에서 flat minimum은 train에서 조금만 벗어나봤자 testing에서 여전히 비슷하다는 것 sharp minimum은 train에서 조금 벗어나면 testing에서 매우 큰 차이를 보인다 일반적으로 test에서 모형이 잘 동작하기를 바란다 그러므로 flat minimum에서 generalization performa..

2022. 12. 31. 18:13

머신러닝 모델링 기본방법 - bootstrapping, bagging, boosting

1. bootstrapping 현재 데이터를 복원추출로 random sampling하여 얻은 여러 데이터로 학습하는 기법 각각의 sample 각각에서 모델을 만들어 예측의 consistence를 보고자 하는 것임 혹은 데이터가 부족할 때 데이터를 늘리고자 쓰는 기법 위 그림은 bootstrapping을 이용한 bagging을 나타낸다고 볼 수 있겠다 2. bagging bootstrapping으로 만든 데이터 set으로 여러 모델을 만들고 각 모델의 성능을 적절하게 aggregation 한다 aggregation하는 방법은 voting이나 averaging 등이 있다. 보통 모든 학습데이터를 써서 결과를 내는게 성능이 좋아보이지만 의외로 80% sampling bootstrapping 하여 얻은 bagg..

2022. 6. 2. 00:46

확률분포&연속형분포의 이산화&조건부분포&기댓값으로 구하는 통계량

1. 확률분포 $x \times y$라는 데이터 공간에서 D는 데이터를 만들어내는 하나의 확률분포이다. 이로부터 얻어낸 데이터는 하나의 확률변수로 $(x,y) \sim D$이다. 확률분포에 따라 데이터의 이산형, 연속형이 결정된다. 데이터 상태가 실수이냐 정수이냐랑은 크게 무관하다. 확률분포는 이론적으로 존재하며 단순히 데이터만 보고는 무슨 확률분포를 따르는지는 알 수 없다. -------------------------------------- 확률질량함수는 이산형확률변수의 확률함수로 그 값 자체가 확률이다. 확률변수가 공간 A에서 가질 수 있는 모든 경우의 수를 고려한 확률의 합으로 구해진다. ------------------------------------- 확률밀도함수는 연속형확률변수의 확률함수지만..

2022. 6. 1. 01:51

딥러닝의 핵심요소

1. deep learning의 기본 인공지능을 단순하게 정의하면 ‘사람의 지능을 모방하는 것’ 딥러닝이 인공지능의 모든 것은 아니다. 2. 딥러닝의 핵심요소 모델이 배워야할 data, 데이터를 어떻게 변형시킬지 model, 모델의 나쁜 정도를 측정하는 loss function, loss를 최소화하는 parameter를 추정하는 알고리즘(optimizer) 4가지만 논문에서 정확히 보더라도 해당 논문의 거의 대부분을 이해할 수 있는 수준 2-1) data 데이터(data)는 풀고자하는 문제에 따라 다르다 semantic segmentation > 이미지의 픽셀이 어느 class에 속할지 pose estimation > 이미지의 스켈레톤(동작)을 추정함 visual QnA > 시각이미지를 보고 질문에 대한..

2022. 4. 7. 00:29

bias and variance trade off

1. variance variance는 출력의 일관성을 측정한다. 즉 입력값이 달라지더라도 출력이 얼마나 일관적인지 알아보는 값이다. variance가 작을수록 출력이 일관적이다. 보통 간단한 모형일 수록 low variance고 복잡한 모형일수록 high variance low variance일수록 좋은데 왜냐하면 bias만큼 모형을 shift시키면 true value를 정확히 예측하는 좋은 모형을 얻는다. 2. bias bias는 얼마나 평균적으로 true value에 몰려있는가를 측정한다. 착각하면 안되는 것이 단순히 얼마나 몰려있는가가 아니라 true value에 몰려있는가를 측정하는 것 true value에 몰려있을 수록 작다 bias와 variance를 둘 다 줄이는 것이 사실 베스트 3. ‘..