Loading...
2022. 6. 1. 01:51

딥러닝의 핵심요소

1. deep learning의 기본 인공지능을 단순하게 정의하면 ‘사람의 지능을 모방하는 것’ 딥러닝이 인공지능의 모든 것은 아니다. 2. 딥러닝의 핵심요소 모델이 배워야할 data, 데이터를 어떻게 변형시킬지 model, 모델의 나쁜 정도를 측정하는 loss function, loss를 최소화하는 parameter를 추정하는 알고리즘(optimizer) 4가지만 논문에서 정확히 보더라도 해당 논문의 거의 대부분을 이해할 수 있는 수준 2-1) data 데이터(data)는 풀고자하는 문제에 따라 다르다 semantic segmentation > 이미지의 픽셀이 어느 class에 속할지 pose estimation > 이미지의 스켈레톤(동작)을 추정함 visual QnA > 시각이미지를 보고 질문에 대한..

2022. 4. 7. 00:29

bias and variance trade off

1. variance variance는 출력의 일관성을 측정한다. 즉 입력값이 달라지더라도 출력이 얼마나 일관적인지 알아보는 값이다. variance가 작을수록 출력이 일관적이다. 보통 간단한 모형일 수록 low variance고 복잡한 모형일수록 high variance low variance일수록 좋은데 왜냐하면 bias만큼 모형을 shift시키면 true value를 정확히 예측하는 좋은 모형을 얻는다. 2. bias bias는 얼마나 평균적으로 true value에 몰려있는가를 측정한다. 착각하면 안되는 것이 단순히 얼마나 몰려있는가가 아니라 true value에 몰려있는가를 측정하는 것 true value에 몰려있을 수록 작다 bias와 variance를 둘 다 줄이는 것이 사실 베스트 3. ‘..

2022. 2. 16. 19:10

RNN의 기울기 소실(gradient vanishing) 문제

1. RNN의 역전파(Backpropagation through time) 빨간색은 그래디언트가 흘러들어가는 방향이다. Hidden layer에 대한 그래디언트 하나를 직접 계산해보면 빨간색 부분에 주목해보자. f의 미분값이 1보다 크면 곱해지면서 점점 커질 것이고 gradient exploding 현상이 일어난다. 즉 그래디언트가 매우 커져서 학습이 전혀 안된다는 것. 반대로 f의 미분값이 1보다 작으면 곱하면서 점점 작아질 것이고 gradient vanishing 현상이 일어난다. gradient가 0이 되어버리니 학습이 안된다는 소리임. 수식으로 더 써보면 그림과 같다. 잠재변수가 가중치행렬과 활성화함수의 반복적인 곱으로 이루어진다. 직관적으로 활성화함수가 시그모이드라면 정보를 압축하는 역할을 하는..

2022. 2. 15. 18:36

RNN(Recurrent Neural Network)이란 무엇인가?

MLP의 경우 현재 시점의 정보만 가지고 입출력을 하므로 과거 정보를 다루기 어렵다. MLP는 오직 현재 시점의 입력만 사용한다 과거의 정보를 사용하고 싶다면? 이전 잠재변수 $H_{t-1}$로부터 정보를 받는 새로운 가중치 행렬을 만든다 위와 같은 경우 가중치 행렬이 1층 레이어에서 $W_{X}^{(1)}$,$W_{H}^{(1)}$, 2층 레이어에서 $W^{(2)}$로 총 3개 있음 특히 이들 가중치 행렬은 시간 t와는 무관하게 모든 시점에서 공유된다 혹은 재귀적으로 입력이 반복된다고 해서 이렇게 표현하기도 한다 현재 입력 X에 대해 추가적으로 A에서 이전의 출력정보가 같이 들어가서 H로 나오는 구조 이런 재귀적 구조를 시간순으로 풀어버리면 오른쪽 그림처럼 입력이 매우 많은 fully connected..

2022. 2. 14. 20:19

다양한 sequential model들

1. naive sequence model 조건부확률을 이용한 모델링 과거 정보가 얼마나 들어올지 모르기 때문에 사실상 사용하기 어렵다 과거 정보는 input data이고 이것을 이용하여 현재 시점의 데이터를 예측 2. autoregressive model 과거정보가 얼마나 들어올지 모르는 어려움을 해소하는 가장 쉬운 방법은 고정된 길이의 과거 자료만 사용하는 자기회귀모형(autoregressive model) 3. Markov model 자기회귀모형의 일종으로 AR(1)을 Markov model이라고 한다. 오직 바로 이전 시점의 데이터만 현재 시점에 영향을 미치는 경우에 사용 결합확률분포의 표현이 쉬워지지만 현실적으로 절대 말이 안되는 AR(1) 모형 많은 과거 정보를 버릴 수 밖에 없다. 4. La..

2022. 2. 12. 19:25

data augmentation은 왜 사용해야할까?

1. train data의 문제점 neural network는 데이터를 컴퓨터만 이해할 수 있는 지식의 형태로 녹여넣는 모델 데이터를 통해 패턴을 분석하고자하는 것인데 모델이 데이터를 편식하지 않고 전부 가져가면 가장 좋다 그러나 실제 세상의 데이터들은 bias가 많다 우리가 train data로 얻은 이미지들은 사람이 카메라로 찍은 이미지들이다. 사람이 카메라로 찍었다는 것은 당시 유행?에 따라 사람들이 보기 좋게 찍은 bias된 이미지 그러나 실제 세상은 사람들이 보기 좋게 찍은 구도 말고도 여러가지 많다 실제 test time에서는 어떤 image가 들어올지 모른다 이 말이야 train data는 실제 real data 분포에서 아주 극히 일부 sampling된 데이터라고 볼 수 있다 이게 왜 문제..