1. RNN의 역전파(Backpropagation through time) 빨간색은 그래디언트가 흘러들어가는 방향이다. Hidden layer에 대한 그래디언트 하나를 직접 계산해보면 빨간색 부분에 주목해보자. f의 미분값이 1보다 크면 곱해지면서 점점 커질 것이고 gradient exploding 현상이 일어난다. 즉 그래디언트가 매우 커져서 학습이 전혀 안된다는 것. 반대로 f의 미분값이 1보다 작으면 곱하면서 점점 작아질 것이고 gradient vanishing 현상이 일어난다. gradient가 0이 되어버리니 학습이 안된다는 소리임. 수식으로 더 써보면 그림과 같다. 잠재변수가 가중치행렬과 활성화함수의 반복적인 곱으로 이루어진다. 직관적으로 활성화함수가 시그모이드라면 정보를 압축하는 역할을 하는..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.