Loading...
2021. 12. 31. 21:41

여러가지 활성화함수(activation function)

1. sigmoid(logistic function) 함수가 [0,1]에서 값을 가지며 큰 x>0와 작은 x

2021. 12. 29. 01:12

gradient descent method 핵심요약

1. Gradient Descent 미분가능한 함수의 반복적인 1차미분으로 국소적 최솟값(local minimum)을 찾는 과정 loss가 감소할 때 optimum이라 기대하는 지점이 존재하는 loss function이 존재할 것이라고 가정 최적을 찾고자 하는 parameter로 loss에 대해 편미분을 함 2. stochastic gradient descent 매 학습 스텝마다 random single sample 이용한 gradient 계산 random sample 1개만 사용하여 gradient를 계산함 가장 불안정하지만 가장 빠르게 계산 가능 3. mini batch gradient descent 매 학습 스텝마다 random subset of data sample을 이용한 gradient 계산 ..

2021. 12. 17. 21:41

L1(Lasso)과 L2 regularization(Ridge)에 대한 고찰

1) L1(절댓값 함수)과 L2(제곱 함수) regularization 항을 그래프로 그려보면 weight parameter중 하나가 0으로 가까이 가면 L2 regularization은 나머지 하나도 0으로 가까이 가는 듯 하지만 0은 아닌데 L1 regularization은 확실하게 0으로 가려고 한다 결론은 L1 regularization은 많은 weight를 0으로 만들어낼 수있는데 L2 regularization은 0에 가까운 weight들을 만들어낸다. 2) 이 사실을 다른 그림을 통해 직관적으로 살펴보면 2개의 paramete $W _{1},W _{2}$가 있다고 가정하고 2가지 regularization에 대하여 regularization 항이 최소한 $s$이내에 있어야한다고 하면 $$\l..

L1 regularization(Lasso)과 L2 regularization(Ridge)

L1 regularization과 L2 regularization은 모형의 복잡도인 parameter에 penalty를 주는 방식이다. L1, L2라는 용어에서 알 수 있다시피 loss function 공부하면서 짐작할 수 있는데 L1 regularization은 L1 norm인 절댓값 합을 말하는 것 일 테고 Lasso라고도 부른다. L2 regularization은 제곱 합을 말하는 것이고 Ridge라고도 부른다. 기본적으로 regularization하면 생각나는 것은 $$cost = basic \; loss + regularization$$ regularization term을 구성하는 방법은 neural network의 parameter를 이용한다. 그 parameter가 $W$라고 한다면 $$\..

2021. 12. 15. 00:04

regularization이란 무엇일까?

1. regularization이 무엇일까? 누군가가 regularization이 뭐에요?라고 물어보면 뭐라고 대답해야할까 쉽지 않다.. 당장 대답해보라하면 그냥 과적합을 방지하기 위해 loss function에 항을 추가하는 일? 여기서 조금 더 떠들어본다면 모형이 train data를 너무 잘 배워서 loss를 빠르게 줄이는 것을 막고자 penalty로 항을 추가한다. 그러면 loss를 빠르게 줄이는 것을 막아 과적합을 방지하게 된다 위키피디아의 정의를 가져와봤다 regularization is the process of adding information in order to solve an ill-posed problem or to prevent overfitting. ‘과적합을 방지하기 위해 무언..

2021. 11. 22. 23:17

가장 좋은 loss function은?

1. Huber loss MSE와 MAE가 모두 바람직하지 않은 경우도 많다. 만약 90%의 데이터가 매우 큰 값 예를 들어 200, 10% 데이터가 0~10정도 값을 가진다고 하면 MSE는 10%의 작은 값을 가지는 0~10에 맞출려고 하고 MAE는 90%의 데이터가 있는 200에 맞출려고 한다. MSE는 식 자체가 평균을 구하는 것에 목적이 있고 MAE는 중앙값을 구하는 것에 목적이 있다. 수학적으로 MSE를 가장 최소화하는 하나의 예측치는 평균이고, MAE를 가장 최소화하는 하나의 예측치는 중앙값이다. 이런 경우 적합한 loss function은 huber loss라고 있다. huber loss는 MSE와 MAE를 적절하게 합친 것이다. 그래서 MSE에 비해 outlier에 덜 민감하고 MAE에 비..