Loading...
2024. 1. 11. 01:11

2일차 activation, gradient descent, random initialization, deep neural network, hyperparameter 간단하게

1. non-linear activation z1 = W1x + b1 a1 = g1(z1) z2 = W2a1 + b2 a2 = g2(z2) 만약, g1 = px+q, g2 = rx+s의 선형함수라고 한다면, z2 = W2W1(px+q) + W2b1+b2이고, W2W1 = W3, W2b1+b2 = b3라고 한다면, z2 = W3(px+q)+b3이다. 따라서 몇개의 layer를 연결하더라도, activation이 linear라면, 하나의 layer로 만들어진다. 그래서 함수의 표현력이 떨어져서 hidden layer에서 linear activation은 사용하지 않는다. output layer에서 linear activation을 사용할 수 있으며, 그렇다면 hidden layer은 non-linear ac..

2024. 1. 10. 00:34

1일차 neural network, supervised learning, activation 간단하게

1. neural network And so given these input features, the job of the neural network will be to predict the price y. And notice also that each of these circles, these are called hidden units in the neural network, that each of them takes its inputs all four input features. So for example, rather than saying this first node represents family size and family size depends only on the features X1 and ..

2023. 7. 11. 02:30

Vanilla RNN에서 hidden vector로 예측값을 만드는 과정

hidden vector의 차원은 hyperparameter이다. 여기서는 2차원이라고 가정해보자. 3차원의 입력벡터 $X_{t}$가 들어가고 2차원의 hidden state vector인 $h_{t-1}$이 RNN의 입력으로 들어간다고 해보자. 처음에는 $X_{t}$와 $h_{t-1}$이 concatenation되어 hidden layer에 fully connected 된다. 당연하지만 $h_{t-1}$이 2차원이기때문에 $h_{t}$를 뽑아내는 layer의 차원도 2차원이다. hidden layer의 선형변환 W와 입력벡터의 곱 WX에 nonlinear activation인 tanh(WX)로 $h_{t}$가 뽑힌다. Vanilla RNN이 실제로 tanh()를 activate function으로 썼다..

2023. 6. 18. 01:18

CNN visualization1 - First filter visualization

1. CNN visualization의 기본 CNN은 단순히 학습가능한 convolution layer와 nonlinear activation의 연속으로 이루어진 연산기 학습을 잘하면 인간 성능 이상으로 좋은 성능을 보이기도 하는데 도대체 왜 잘되는 걸까? 단순히 학습을 하니까? 학습을 통해 convolution filter은 도대체 무엇을 배우길래 잘하는 걸까? 혹은 어떤 경우는 쉽게 안되는 경우도 많고 성능도 잘 안나오는 경우도 많은데 그것은 왜 안되는걸까? CNN이라는 건 입력이 주어지면 출력이 나오는 black box같은 기계로 생각할 수 있다 왜 안되는지 알고자 그 안을 뜯어보면 복잡한 가중치와 복잡한 연결들로 이루어져 사람이 이해하기가 어렵다 만약 CNN안에서 무슨 일이 일어나는지 사람이 이해..

2023. 2. 27. 01:37

컴퓨터 비전 기본 개념 복기하기

1. 시각 지각능력이 왜 중요한가 인간이 처리하는 대부분의 데이터는 오감을 통해 들어온다. 오감 = 센서 이로부터 취득한 데이터를 뇌에서 프로세싱하여 정보로 사용함 오감중 가장 많은 정보량을 차지하는 것은 시각이다 인간의 75%정보는 눈으로부터 들어옴 귀에 이어폰을 꽂고 돌아다니는건 불편하지 않지만, 눈을 감고 돌아다니면 상당히 불편함을 느낌 2. 인간이 세상을 인식하는 방법 시각적 세상이 주어질때, 눈을 통해 세상을 인지하고 그렇게 받은 신호를 뇌에 보내서 이를 기반으로 정보 해석 3. 컴퓨터가 세상을 인식하는 방법 사람의 눈 = 카메라, 사람의 뇌 = GPU, AI, 알고리즘 시스템 카메라로 촬영된 시각 데이터를 GPU에 올려서 알고리즘을 이용해 프로세싱을 하고 understanding이 이루어지면서..

2021. 12. 31. 21:41

여러가지 활성화함수(activation function)

1. sigmoid(logistic function) 함수가 [0,1]에서 값을 가지며 큰 x>0와 작은 x