Loading...
2021. 12. 29. 01:12

gradient descent method 핵심요약

1. Gradient Descent 미분가능한 함수의 반복적인 1차미분으로 국소적 최솟값(local minimum)을 찾는 과정 loss가 감소할 때 optimum이라 기대하는 지점이 존재하는 loss function이 존재할 것이라고 가정 최적을 찾고자 하는 parameter로 loss에 대해 편미분을 함 2. stochastic gradient descent 매 학습 스텝마다 random single sample 이용한 gradient 계산 random sample 1개만 사용하여 gradient를 계산함 가장 불안정하지만 가장 빠르게 계산 가능 3. mini batch gradient descent 매 학습 스텝마다 random subset of data sample을 이용한 gradient 계산 ..

2021. 12. 26. 23:46

여러가지 regularization 기법

1. regularization generalization이 잘 되게하고자 학습을 방해하는 요소를 추가하여 학습뿐만 아니라 test에도 잘 동작하는 모형을 만드는 방법 여러가지 방법들 모두 시도해보면서 잘 되면 좋고 아님 말고… 2. Early stopping Early stopping은 iteration이 증가할 수록 test error는 증가하니 증가하기 전에 멈추자는 원리 특히 test data는 학습 과정에서 사용하면 안되니까 train data의 일부인 validation set으로 평가했다는 점이 주목할만 하다. 3. Parameter norm penalty Parameter norm penalty는 네트워크의 parameter가 크기면에서 너무 커지지 않았으면 하는 바람에서 나온 것 L1, ..

2021. 12. 26. 00:33

softmax function에 대한 진정한 의미

1. 선형모형 $O=XW+b$의 형태, $X$는 input, $W$는 가중치(Weight), $b$는 절편(intercept), $O$는 선형모형에 들어간 $X$의 Output 그림1을 보면 데이터 $X$가 n*d차원에서 선형모형을 통과하면서 n*p차원의 $O$로 바뀜 d개의 input 변수가 가중치의 조합에 의해 p개의 선형 output 변수로 바뀌는 모형 d개의 변수가 가중치에 의한 선형결합으로 각각의 output변수 $O_{1}$,$O_{2}$,...,$O_{p}$가 나옴 2. softmax input 값을 각 class에 속할 확률벡터로 변환해주는 활성화함수 \[softmax(O) = (\frac{exp(O_{1})}{\sum_{k=1}^{p} exp(O_{k})}, \frac{exp(O_{2})..

2021. 12. 24. 01:13

모델의 일반화능력(generalization performance)

모델에 학습을 계속 시켜서 train data에 대해 error를 0으로 만드는 것이 최적인가? 많은 경우 우리는 ‘generalization performance’가 좋은, train data가 아닌 다른 test data에 대해 잘 동작하는 모델을 만들고자 함 iteration이 커질 수록 train error는 계속 줄어들지만 test error는 어느 순간 커진다는 것이 알려짐 generalization performance가 좋다는 것은 이 모델의 train data의 성능이 다른 test data에서의 성능과 비슷하게 나온다는 것임 generalization performance가 좋은 모델이 반드시 좋은 모델인가? 사실 그렇지도 않다. generalization performance가 좋다고..

2021. 12. 17. 21:41

L1(Lasso)과 L2 regularization(Ridge)에 대한 고찰

1) L1(절댓값 함수)과 L2(제곱 함수) regularization 항을 그래프로 그려보면 weight parameter중 하나가 0으로 가까이 가면 L2 regularization은 나머지 하나도 0으로 가까이 가는 듯 하지만 0은 아닌데 L1 regularization은 확실하게 0으로 가려고 한다 결론은 L1 regularization은 많은 weight를 0으로 만들어낼 수있는데 L2 regularization은 0에 가까운 weight들을 만들어낸다. 2) 이 사실을 다른 그림을 통해 직관적으로 살펴보면 2개의 paramete $W _{1},W _{2}$가 있다고 가정하고 2가지 regularization에 대하여 regularization 항이 최소한 $s$이내에 있어야한다고 하면 $$\l..

L1 regularization(Lasso)과 L2 regularization(Ridge)

L1 regularization과 L2 regularization은 모형의 복잡도인 parameter에 penalty를 주는 방식이다. L1, L2라는 용어에서 알 수 있다시피 loss function 공부하면서 짐작할 수 있는데 L1 regularization은 L1 norm인 절댓값 합을 말하는 것 일 테고 Lasso라고도 부른다. L2 regularization은 제곱 합을 말하는 것이고 Ridge라고도 부른다. 기본적으로 regularization하면 생각나는 것은 $$cost = basic \; loss + regularization$$ regularization term을 구성하는 방법은 neural network의 parameter를 이용한다. 그 parameter가 $W$라고 한다면 $$\..