Loading...
2022. 2. 19. 20:48

RNN의 기본 구조 이해하기

1. RNN의 기본구조 각 time step에 sequence data Xt와 전 step의 hidden state vector인 ht-1이 함께 입력으로 들어오고 현 step의 출력으로 ht를 구한다. 1-1) Rolled RNN Xt와 RNN에서 이전에 내놓은 ht-1돌면서 함께 들어가서 ht를 내놓는거 1-2) Unrolled RNN 위의 rolled version을 시간 순으로 풀어버리면 서로 다른 time step에서 들어오는 입력 처리할 때 동일한 parameter를 가지는 모듈 A를 반복적으로 사용하는 구조라서 Recurrent Neural Network 매 step마다 재귀적으로 모듈 A가 호출되어 거기서 나온 출력이 다음 step의 입력으로 들어간다 2. RNN의 예측값 그동안 보았던 N..

2022. 2. 6. 21:55

Word2Vec의 기본 알고리즘

1. idea I study math라는 입력문장을 unique한 단어들의 vocabulary로 변환하면 {‘I’, ‘study’,’math’} 사전의 각 단어는 vocab size만큼 차원을 갖는 one hot vector이다. ‘I’는 [1,0,0] ‘study’는 [0,1,0] ‘math’는 [0,0,1] sliding window라는 기법은 한 단어를 중심으로 앞 뒤로 나타난 단어들과 (중심단어,주변단어) 입출력쌍을 구성하는 기법이다. 이 단어 쌍에서 중심단어를 input으로 두고 주변단어를 output으로 두는 예측 task를 수행하는 2-layer neural network를 구성한다. one hot vector의 차원이 3차원이니 input과 output layer의 차원은 3차원 hidde..

2022. 2. 3. 21:00

convolution 연산 이해하기 중급편

1. convolution signal processing에서 먼저 나왔다 수학적 정의는 다음과 같다. 변수변환을 이용하면 교환법칙이 성립한다 2. convolution의 실제 계산법 커널을 이미지 상에서 stride만큼 움직여간다 찍은 부분에 대해 element wise product를 수행 이미지에 filter를 찍으면 convolution에 의해 filter의 효과에 따라 픽셀의 조정이 이루어지면서 사진이 흐려지거나 밝아지거나 하게 된다 ' 3. convolution의 기본적인 특징 커널과 input의 channel은 크기가 같아야한다 보통 커널은 5*5같이 크기만 제시되는데 input의 channel에 맞춰서 생각하면 된다. input 하나가 kernel 하나에 맞춰 convolution하면 ou..

2022. 1. 31. 20:37

CNN(Convolutional Neural Network)은 왜 등장했을까?

1. Fully connected layer Neural network는 방대한 데이터를 모두 활용할 수 있도록 제한된 복잡도의 system에 압축하여 넣는 것 가장 간단한 single layer로 Perceptron이라고 부르는 Fully connected layer를 생각했다. input image에 대해 하나의 feature를 뽑기 위해 모든 pixel을 각각 서로 다른 가중치로 연결한 것이다 모든 pixel을 서로 다른 가중치의 sum을 하여 nonlinear activation function을 넣어 하나의 classification score를 뽑아낸다 2. Perceptron의 첫번째 문제점 이 간단한 모델을 먼저 matrix 형태로 바라본다면? 각 이미지 pixel 구조에 weight를 그..

2021. 12. 31. 23:45

신경망은 무엇이고 딥러닝에서 활성화함수를 왜 사용하는가?

1. 신경망(neural network) 보통 인간의 뇌에서 애매하게 영감받아 만들어낸 컴퓨팅 시스템?이라고 말한다 왜 신경망이 성능이 좋을까? 인간의 뇌를 모방해서 잘 작동한다? 꼭 그렇지는 않다 왜냐하면 역전파 알고리즘이 우리 뇌에서 작동하는가? 그렇지는 않잖아 수학적으로 신경망은 affine transformation(행렬 변환)과 nonlinear transformation의 순차적이고 반복적인 곱의 형태로 구해지는 함수 근사 모형이다. 신경망은 선형모형과 비선형함수인 활성화함수의 합성함수이다. 활성화함수는 기본적으로 선형모형의 결과를 원하는 방향으로 해석하게 도와준다. 활성화함수를 쓰지 않으면 딥러닝은 선형모형과 차이가 없다 2. linear neural network 일반적으로 잘 아는 기본 ..

2021. 12. 31. 21:41

여러가지 활성화함수(activation function)

1. sigmoid(logistic function) 함수가 [0,1]에서 값을 가지며 큰 x>0와 작은 x