'딥러닝' 카테고리의 글 목록 (41 Page)

RNN의 기본 구조 이해하기

1. RNN의 기본구조 각 time step에 sequence data Xt와 전 step의 hidden state vector인 ht-1이 함께 입력으로 들어오고 현 step의 출력으로 ht를 구한다. 1-1) Rolled RNN Xt와 RNN에서 이전에 내놓은 ht-1돌면서 함께 들어가서 ht를 내놓는거 1-2) Unrolled RNN 위의 rolled version을 시간 순으로 풀어버리면 서로 다른 time step에서 들어오는 입력 처리할 때 동일한 parameter를 가지는 모듈 A를 반복적으로 사용하는 구조라서 Recurrent Neural Network 매 step마다 재귀적으로 모듈 A가 호출되어 거기서 나온 출력이 다음 step의 입력으로 들어간다 2. RNN의 예측값 그동안 보았던 N..

format_list_bulleted NLP
· 2022. 2. 19.
textsms

knowledge distillation에 대하여 기초

1. basic idea 이미 학습을 완료한 teacher model의 지식을 더 작은 student model에게 주입하는 것이 목적 큰 모델에서 작은 모델로 지식을 전달하여 모델 압축에 유용하게 쓴다 최근에는 teacher model의 출력을 unlabeled data의 pseudo-label로 자동생성하는 방식으로 활용함 2. unsupervised learning label이 존재하지 않는 동일한 input을 이미 학습한 teacher model과 학습이 안된 student model에 넣어 각각 output을 출력 같은 입력에 대해 서로 다른 출력을 내놓을 것인데 둘의 차이를 구해주는 KL divergence loss를 구한다 이 loss를 최소화하는 방향으로 backpropagation에 의해..

format_list_bulleted light weight modeling
· 2022. 2. 17.
textsms

RNN의 기울기 소실(gradient vanishing) 문제

1. RNN의 역전파(Backpropagation through time) 빨간색은 그래디언트가 흘러들어가는 방향이다. Hidden layer에 대한 그래디언트 하나를 직접 계산해보면 빨간색 부분에 주목해보자. f의 미분값이 1보다 크면 곱해지면서 점점 커질 것이고 gradient exploding 현상이 일어난다. 즉 그래디언트가 매우 커져서 학습이 전혀 안된다는 것. 반대로 f의 미분값이 1보다 작으면 곱하면서 점점 작아질 것이고 gradient vanishing 현상이 일어난다. gradient가 0이 되어버리니 학습이 안된다는 소리임. 수식으로 더 써보면 그림과 같다. 잠재변수가 가중치행렬과 활성화함수의 반복적인 곱으로 이루어진다. 직관적으로 활성화함수가 시그모이드라면 정보를 압축하는 역할을 하는..

format_list_bulleted 딥러닝 기초
· 2022. 2. 16.
textsms

그래프의 연결성(degree)에 대한 고찰

1. degree 어떤 node V의 degree란 V에 연결된 link의 수 혹은 V의 neighbor의 수와 같다. 그래서 V의 degree를 $d(V)=\left | N(V) \right |$ 로 표기 1은 2,5와 연결되어 있어서 1의 연결성은 2이다. 2. direction graph 방향성이 있는 그래프의 경우 나가는 연결성(out degree)와 들어오는 연결성(in degree)을 구분한다. 당연하겠지만 나가는 연결성(out degree)는 특정 node V에서 나가는 방향과 연결된 node의 수이고 $d_{out}(V)=\left | N_{out}(V) \right |$ 으로 표기 들어오는 연결성(in degree)는 특정 노드 V에 들어오는 방향으로 연결된 node의 수이고 $d_{in..

format_list_bulleted Graph
· 2022. 2. 16.
textsms

그래프에서 중심성(centrality)의 척도들

1. 연결 중심성(degree centrality) 한 node에 연결된 모든 edge의 개수 weighted 그래프의 경우 모든 weight의 합 directed 그래프의 경우 incoming degree는 그 node의 인기도, outcoming degree의 경우 그 node의 영향력 등으로 해석이 다를 수 있다. 2. eigenvector centrality(고유벡터, 위세 중심성) 연결 중심성이 오직 연결된 edge에만 의존한다는 점에서 아쉬워서 다른 node들간의 연관성도 보고 싶다는 것 그래프의 인접행렬 A와 node의 eigenvector centrality를 나타내는 벡터 $C_{e}$ 에 대하여 $\lambda C_{e} = AC_{e}$ 를 만족시키는 $C_{e}$ $C_{e}$ 는 A의..

format_list_bulleted Graph
· 2022. 2. 16.
textsms

Word2Vec의 2가지 형태 - CBOW와 skip-gram 모델

1. CBOW(continuous bag of words) Word2Vec의 첫번째 방법으로 주변의 단어를 가지고 중심단어를 예측하는 과정이다. ‘I am going to school’이라는 문장에서 window size=2라면 중심단어는 going이고 주변단어는 I,am, to, school CBOW는 주변단어를 모두 써서 중심단어 하나를 예측하는 것 CBOW의 중간에 SUM과정이 있는데 input vector들의 평균을 구하는 과정으로 skip gram과 차이점이다. 근데 논문에서 처음 제시한 모형은 sum을 구하는 것이라고 한다. 그런데 큰 차이는 없는것같다. 그냥 sum보다 평균이 안정적인 느낌이라 변했다고 생각이 든다 -------------------------------------------..

format_list_bulleted NLP
· 2022. 2. 15.
textsms

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

RNN의 기본 구조 이해하기

knowledge distillation에 대하여 기초

RNN의 기울기 소실(gradient vanishing) 문제

그래프의 연결성(degree)에 대한 고찰

그래프에서 중심성(centrality)의 척도들

Word2Vec의 2가지 형태 - CBOW와 skip-gram 모델

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역