'계산량' 태그의 글 목록

transformer의 메모리 사용량 알아보기

1. layer의 계산적인 측면 self attention의 layer의 계산적인 측면에서 본다면 input sequence의 길이가 n이고 hidden vector의 차원이 d일때 Q는 n*d차원이고

$K^{T}$ 는 d*n차원이므로

$O(n^{2}d)$ RNN은 d차원의

$h_{t-1}$ 이

$h_{t}$ 로 변환되기위해서는

$W_{hh}$ 라는 d*d행렬을 곱하여 계산되는데 input sequence의 길이 n에 대하여

$O(nd^{2})$ input sequence의 길이 n과 hidden vector의 차원 d는 의미적으로 큰 차이가 있는데 hidden vector의 차원은 hyperparameter로 선택할수있는 값이다. 그러나 input sequence는 선택할수 없는 값으로 데이터의 길이에 따라..

내 블로그

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

블로그 게시글

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

모든 영역

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.

transformer의 메모리 사용량 알아보기

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역