1일차 neural network, supervised learning, activation 간단하게

1. neural network

neural network에 의해 만들어지는 대부분의 경제적 가치는 supervised learning에서 나온다.

sigmoid function의 경우, gradient descent를 구현하면 gradient가 0이 되어 parameter의 변화가 매우 느리게 진행된다.

반면 ReLU의 경우 양수 input에 대해서는 항상 gradient가 1이어서 gradient descent가 더 빨라졌으며, 이는 계산을 빠르게 할 수 있게 해준다.

tanh 함수는 sigmoid를 이동시켜서 만든 함수

728x90

딥러닝 모델 training의 기본 법칙 (0)	2024.01.12
딥러닝 시대의 train, validation, test set에 대한 고찰(70:30으로 나눠야하는가? train과 test가 서로 다른 분포? validation vs test는 무슨 차이인가?) (0)	2024.01.12
2일차 activation, gradient descent, random initialization, deep neural network, hyperparameter 간단하게 (0)	2024.01.11
neural network를 training 하기 전에 input을 normalization해야하는 이유 (0)	2023.06.07
딥러닝 모델에서 가중치를 초기화하는 방법(weight initialization) (0)	2022.03.11

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`