'딥러닝/딥러닝 기초' 카테고리의 글 목록 (2 Page)

2024. 5. 9. 23:43

결정을 기계에 맡기는 시대(deductive, inductive)

1. decision making 1) deductive 모든 사람은 죽는다. 소크라테스는 사람이다. 따라서 소크라테스는 죽는다 이미 정의된 혹은 증명된 사실들을 바탕으로 원하는 가설들을 증명하는 과정 참고로 7C2는 7개 중에서 2개를 선택하는 경우의 수인데 이 모든 경우의 수들이 노란색 동그라미들에 전부 대응시킬수 있어서 1+2+3+4+5+6=7C2가 성립 전제에 따라 바뀌는 결과 10진수에서는 1+1=2이지만, 2진수에서는 1+1=0 12진수에서는 1+15=4, 13진수에서는 1+5=-7(6이라 해도 되긴 하는데 1+5 = 6보다는 -7로 해서 다르게 할려고 쓴것 같음) 전제가 참이면 결론이 참이다 2) inductive 해가 동쪽에서 떠서 서쪽에서 뜨는 것은 수만년 전부터 많이 관찰..

2024. 4. 15. 23:37

batch normalization 개념 간단하게

internal covariate shift 현상을 해결하기 위해 등장 layer를 지날수록 layer의 parameter의 변화에 따라 dataset의 분포가 변화한다고 생각한 것이다. 위와 같이 data가 layer를 지나가면서 분포가 변화한다고 생각한 것이 covariate shift 그런데 진짜있는 것인지는 논란이 많다 batch normalization은 각 layer마다 batch set을 normalization하여 분포의 변형을 막겠다는 것이다. batch의 평균과 분산을 구해서 각 입력값을 normalize 시킨다 마지막 $\gamma , \beta$는 normalize하면 activation의 nonlinearity를 잃어버리기 때문에 이를 조정하기 위함이고 학습해야하는 paramete..

2024. 4. 2. 01:32

hyperparameter 개념 간단하게

1. hyperparameter와 parameter의 차이? hyperparameter는 학습과정에서 control할 수 있는 parameter value를 의미하고 학습 전에 사람이 직접 설정해줘야함 parameter는 모델이 학습과정에서 자동으로 배워나가는 값 hyperparameter tuning이란 이러한 learning 알고리즘에서 hyperparameter를 최적화하는 과정임 2. hyperparameter optimization model system의 매커니즘에 영향을 줄 수 있는 여러 요소들 batch_size, learning rate, loss, k-fold, dropout, regularization, optimizer, hidden layer 종류는 많음 hyperparameter..

2024. 3. 1. 02:06

라그랑주 승수법 간단하게

라그랑주 승수법은 제약조건이 있을 때 함수를 최대화, 최소화시키는 방법이다 최적화시키고자하는 함수 f(x,y)와 제약조건은 보통 g(x,y) = c 형태로 주어진다. 변하는 값은 함수 f(x,y)인데 이것을 변화시키다가 g(x,y) = c와 서로 접할때 함수 f가 최대가 되는 경우가 가장 쉬운 경우 https://deepdata.tistory.com/1115 gradient descent를 위한 gradient vector의 이론적 설명 간단하게 1. 방향도함수(directional derivate) 이변수함수 z = f(x,y)와 임의의 단위벡터(norm이 1인 벡터) u = (a,b)에 대하여... 벡터 u를 지나는 평면으로 z = f(x,y)를 잘랐을때 생기는 곡선 위 (x0,y0,z0)위에서의 접..

2024. 3. 1. 01:53

gradient descent를 위한 gradient vector의 이론적 설명 간단하게

1. 방향도함수(directional derivate) 이변수함수 z = f(x,y)와 임의의 단위벡터(norm이 1인 벡터) u = (a,b)에 대하여... 벡터 u를 지나는 평면으로 z = f(x,y)를 잘랐을때 생기는 곡선 위 (x0,y0,z0)위에서의 접선의 기울기? 다음과 같이 정의되는 식을 u = (a,b)에 대한 방향도함수라고 부른다. g(h) = f(x0 + ha, y0 + hb)라고 하자. h = 0이면 g(0) = f(x0,y0)이므로.. 그런데 x(h) = x0 + ha, y(h) = y0 + hb라 하고 g(h) = f(x(h), y(h))라고 하자. 합성함수 미분법에 의하여... 다음과 같이 유도가능하다. 위 식에 h = 0을 넣으면 g'(0)이고 이는 방향도함수와 같으므로... ..

reproducibility를 위한 random seed

1. 필요성 모델의 재현성 cross validation의 경우 실행할 때마다 매번 다르게 sampling되어 model의 성능이 매번 다르다 반복해서 실행했을 때 동일한 조건에서 동일하게 sampling되어야 정확하게 model 성능 측정이 가능함 머신러닝 모델도 random하게 작동하므로 작업 복원을 위해서라도 반드시 필요함 어떤 가설을 설정하고, 그것이 맞는지 실험할려고 하는데 재현이 안된다면 가설에 의한 변화 때문에 성능이 바뀐건지, 다른 원인이 있는건지 파악할 수 없음 2. seed 모델의 랜덤성 때문에 풀고자 하는 문제에 대하여 데이터가 매번 바뀌면 모델 성능 측정시 내가 만든 feature나 전처리 방식이 효과적인지 확인이 어렵다 랜덤성을 제거하기 위한 seed를 고정 feature engi..

통계학 세상

통계학 세상

통계학 세상

결정을 기계에 맡기는 시대(deductive, inductive)

batch normalization 개념 간단하게

hyperparameter 개념 간단하게

라그랑주 승수법 간단하게

gradient descent를 위한 gradient vector의 이론적 설명 간단하게

reproducibility를 위한 random seed

티스토리툴바