Loading...
2024. 1. 11. 01:11

2일차 activation, gradient descent, random initialization, deep neural network, hyperparameter 간단하게

1. non-linear activation z1 = W1x + b1 a1 = g1(z1) z2 = W2a1 + b2 a2 = g2(z2) 만약, g1 = px+q, g2 = rx+s의 선형함수라고 한다면, z2 = W2W1(px+q) + W2b1+b2이고, W2W1 = W3, W2b1+b2 = b3라고 한다면, z2 = W3(px+q)+b3이다. 따라서 몇개의 layer를 연결하더라도, activation이 linear라면, 하나의 layer로 만들어진다. 그래서 함수의 표현력이 떨어져서 hidden layer에서 linear activation은 사용하지 않는다. output layer에서 linear activation을 사용할 수 있으며, 그렇다면 hidden layer은 non-linear ac..

2023. 5. 8. 03:43

pytorch - flatten과 averaging pooling, training 방법 기본기, layer 구성법

1. flatten vs. average pooling flatten은 feature map을 벡터로 적절한 순서대로 쌓고 import torch t = torch.tensor([[[1,2], [3,4]], [[5, 6], [7,8]]]) print(torch.flatten(t)) tensor([1, 2, 3, 4, 5, 6, 7, 8]) print(torch.flatten(t, start_dim = 1)) tensor([[1, 2, 3, 4], [5, 6, 7, 8]]) feature map이 [1,2,3,4]랑 [5,6,7,8]인데 이 둘을 2가지 방식으로 flatten시켰다? 이건 그림 안그려봐도 결과 코드가 이해가 될듯.. [1,2,3,4]랑 [5,6,7,8]을 적절하게 쌓았네 ----------..

2023. 5. 1. 03:13

pytorch - model, nn.module 제대로 이해하기 재활치료

1. model이란 무엇인가 data preprocessing에서 Vanilla data가 모델을 거칠 수 있도록 데이터를 변환했음 어떤 데이터를 사용하여 어떤 결과를 만들지 문제 해결 과정을 잘 정의했다면? modeling에서 preprocessing한 image를 넣어 원하는 형태의 output이 나오는 model을 만들어야 ------------------------------------------------------------------------------ 여기서 말하는 model이란? “일반적으로 model은 object, person, system의 정보적인 표현” object는 노트북이나 핸드폰 모델, person은 패션모델, system이 바로 딥러닝 여기서는 딥러닝을 말하고 싶으니까...