Loading...
2022. 2. 1. 18:56

convolution 연산 이해하기 기본편

1. Fully connected 연산 기존의 MLP는 가중치 행렬에서 각 행마다 다른 가중치 행들이 각각 Hidden vector에 연결되는 구조다. 이게 단점은 parameter가 많아서 계산량이 많아진다. 2. Convolution 연산 고정된 가중치 행렬 kernel을 입력벡터상에 움직여가면서 모든 hidden vector에 연결시키는 전략은 어떨까? parameter 수가 엄청나게 줄어들어 계산이 쉬워진다. 심지어 행렬곱이니까 여전히 선형변환이다. 3. Convolution 함수 공식은 다음과 같다. 참고로 convolution은 변수변환을 시켜서 교환법칙이 성립한다는 것을 보일 수 있다. 커널을 이용해 신호를 국소적으로 증폭 또는 감소시켜 정보를 변환하거나 추출하는 방식으로 signal pro..

2022. 1. 26. 21:22

backpropagation의 개괄적인 설명

손실함수를 가중치나 절편에 대해 최소화시키는 방법 L이 loss이고 W는 가중치 b는 절편 손실함수를 가중치나 절편에 대해 최소화시키는 방법 그런데 미분값을 계산하는 과정에서 최상층에서 최하층으로, 역으로 미분 계산이 진행된다해서 Backpropagation이라 부른다. 합성함수 미분법에 의한 연쇄법칙이 기반 예제) 2층신경망의 역전파 알고리즘 방법은? 비슷한 방식으로 도 구할 수 있다. 확률적 경사하강법 등을 이용하여 손실함수 L을 최소화시키는 방향으로 가중치 W와 절편 b을 계속 갱신해나감

2022. 1. 17. 21:42

여러가지 cross validation 방법들

1. cross validation의 목적 과적합을 피하고 parameter를 튜닝하면서 일반적인 더욱 신뢰성있는 모델을 만들기 위해서이다. 2. holdout validation - validation set이 왜 필요할까?- validation set은 왜 필요한가? 일반적으로 train set과 test set을 7:3의 비율로 나누는데 그런 경우 train한 모델이 train set에만 과적합될 가능성이 매우 높다. 그래서 train set을 train과 validation set으로 나누는데 이 경우 validation set으로 train model을 평가하면서 hyperparameter를 튜닝할 수 있게 된다. 이렇게 데이터셋을 나누는 것을 holdout validation이라 한다. 그런데..

2022. 1. 4. 23:42

확률적 경사하강법(stochastic gradient descent method)

1. 확률적 경사하강법(stochastic gradient descent method, SGD) 모든 데이터를 사용하는 것이 아닌 매 스텝마다 데이터 1개를 sampling하여 각 스텝마다 gradient를 계산한 경사하강법 목적식이 볼록(convex)이 아니면 확률적 경사하강법을 이용하여 최적화 할 수 있다. 또한 데이터 세트가 매우 클때 일반적인 경사하강법은 속도가 너무 느려져서 매 스텝마다 일부 데이터만 사용하는 확률적 경사하강법을 이용하여 속도를 높일 수 있다. 연산량에 있어서 효율적임 만능은 아니지만 딥러닝에서는 일반적인 경사하강법보다 낫다고한다 그림1을 보면 데이터의 일부를 사용하여 추정한 그래디언트 벡터의 기댓값이 실제 그래디언트 벡터에 근사한다 데이터를 확률적으로 선택하기 때문에 안정적으로..

2022. 1. 3. 20:06

cross validation이란?

k-fold validation이라고도 한다. 보통 모형의 성능을 높이기 위해서 주어진 전체 data를 train data + validation data와 test data로 나눈다. train data는 학습을 위해 사용되는 부분이고 validation data는 학습한 모형의 성능을 평가하면서 hyperparameter를 튜닝하기 위해 사용한다. test data는 오직 최종 모형의 성능을 평가하기 위해서만 사용한다. 그런데 이들을 어떻게 나눠야 할까? train data를 k개의 fold로 나누고 그 중 k-1개를 train, 나머지 1개를 validation data라 하고 학습을 진행한다. 1-1) k-1개를 선택하는 모든 경우에 대해 반복하여 진행하고 그들의 적절한 평균으로 최종 모형 선택 ..

2022. 1. 2. 23:01

경사하강법(gradient descent)의 한계

1. 선형회귀분석 주어진 n개의 데이터에서 이들을 가장 잘 설명하는 선형모형을 찾는다 이전에는 무어펜로즈 역행렬을 이용하여 찾았다 무어펜로즈 역행렬을 이용하여 오차의 norm을 최소화하여 회귀계수 $\beta$를 찾는다. 무어펜로즈 역행렬은 컴퓨터 계산 시간 측면에서 비효율적이다 변수 수 m에 따라 $O(m^{2})$이라고 한다. 대안으로 경사하강법을 이용하여 회귀계수를 추정할 수 있다. 2. 선형회귀분석에서의 경사하강법 선형회귀분석은 위에서도 보였지만 \[y-X\beta\]의 norm을 최소화하는 $\beta$를 찾는것. 그러므로 \[y-X\beta\]의 norm을 $\beta$로 미분한 그래디언트 벡터를 구한다 그래디언트 벡터를 구하면 경사하강법을 이용하여 $\beta$에 그래디언트 벡터를 빼서 얻은..