1. introduction weight뿐만 아니라 activation에도 quantization을 적용할 수 있다 심지어 activation과 weight에 서로 다른 quantization을 적용할 수 있다 activation끼리도 서로 다른 quantization 적용이 가능하고 weight끼리도 서로 다른 quantization 적용이 가능하다 위 그림을 보면 weight에 모두 8bit로 quantization을 하고 activation 3개에는 모두 다른 16bit, 8bit, 3bit quantization을 하고 있다 2. problem activation function을 quantization하면 문제점은 계단함수가 되어 모든 구간에서 미분이 안된다는 문제점이 있다 forward ..
1. 문제 15725번: 다항함수의 미분 (acmicpc.net) 15725번: 다항함수의 미분 첫째 줄에 최대 일차 일변수 다항식이 주어진다. 항의 개수는 최대 2개이고, 변수는 항상 x로 주어지며, 각 항은 공백 문자로 구분되지 않는다. 주어지는 계수와 상수의 절댓값은 10,000을 넘지 않 www.acmicpc.net 2. 풀이 그냥 간단하게 일차함수를 미분하면 된다 input으로 일차함수 형태가 들어오는데, 일차함수 미분은 결국 x의 계수니까, x의 계수를 파싱해서 출력하면 된다 말은 간단하지만... x의 계수를 컴퓨터가 찾기는 쉽지가 않지 여러가지 경우의 수를 생각해보자. 크게는 일차항이 없는 경우와 일차항이 있는 경우로 나뉠 것이다. 일차항이 없는 경우는 미분하면 0이니까... input을 순..
1. GRU(Gated Recurrent Unit) LSTM의 경량화, 적은 메모리와 빠른 계산시간 LSTM의 cell state와 hidden state를 하나의 hidden state로 일원화 하나의 input gate만 활용함 이전 hidden vector ht−1과 input gate에서 계산한 ~ht의 가중평균 형태로 새로운 hidden vector ht가 업데이트되어 나감 하나는 다음 step의 hidden vector ht로 나가고 예측이 필요하다면 똑같은 hidden vector ht가 output layer로 들어가 예측을 수행 흐름과 식을 잘 봐야함 이전 hidden vector ht−1가 input gate로 그대로 들..
손실함수를 가중치나 절편에 대해 최소화시키는 방법 L이 loss이고 W는 가중치 b는 절편 손실함수를 가중치나 절편에 대해 최소화시키는 방법 그런데 미분값을 계산하는 과정에서 최상층에서 최하층으로, 역으로 미분 계산이 진행된다해서 Backpropagation이라 부른다. 합성함수 미분법에 의한 연쇄법칙이 기반 예제) 2층신경망의 역전파 알고리즘 방법은? 비슷한 방식으로 도 구할 수 있다. 확률적 경사하강법 등을 이용하여 손실함수 L을 최소화시키는 방향으로 가중치 W와 절편 b을 계속 갱신해나감
1. 그래디언트 벡터(gradient vector) 어떤 변수 벡터 x=(x1,x2,x3,....,xn)에 대하여 함수 f(x)의 gradient vector는 각 변수별로 편미분한 성분을 원소로 갖는 벡터 ▽f(x)=(df(x)x1,df(x)x2,...,df(x)xn) gradient vector ▽f(x)는 점 x에서 함수 f가 가장 빠르게 증가하는 방향을 가리킨다. 당연하지만 -gradient vector인 −▽f(x)은 점 x에서 함수 f가 가장 빠르게 감소하는 방향을 가리킨다 2. 편미..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.