data augmentation은 왜 사용해야할까?
1. train data의 문제점
neural network는 데이터를 컴퓨터만 이해할 수 있는 지식의 형태로 녹여넣는 모델
데이터를 통해 패턴을 분석하고자하는 것인데 모델이 데이터를 편식하지 않고 전부 가져가면 가장 좋다
그러나 실제 세상의 데이터들은 bias가 많다
우리가 train data로 얻은 이미지들은 사람이 카메라로 찍은 이미지들이다.
사람이 카메라로 찍었다는 것은 당시 유행?에 따라 사람들이 보기 좋게 찍은 bias된 이미지
그러나 실제 세상은 사람들이 보기 좋게 찍은 구도 말고도 여러가지 많다
실제 test time에서는 어떤 image가 들어올지 모른다 이 말이야
train data는 실제 real data 분포에서 아주 극히 일부 sampling된 데이터라고 볼 수 있다
이게 왜 문제냐? 눈에 보기 좋게 밝은 이미지들로 구성된 train data로만 학습한 모델이 있다고 하자
train 과정에서 한번도 보지 못한 어두운 고양이 사진이 들어오면 모델이 당황해서 인식을 제대로 못함
이것은 모델이 잘못한 것일까? 사실 학습데이터셋이 진짜 real data를 전부 표현하지 못해서 생기는 문제
'딥러닝 > 딥러닝 기초' 카테고리의 다른 글
RNN(Recurrent Neural Network)이란 무엇인가? (0) | 2022.02.15 |
---|---|
다양한 sequential model들 (0) | 2022.02.14 |
sequence 데이터를 모델링하는 방법 (0) | 2022.02.11 |
transfer learning이란 무엇일까? (0) | 2022.02.09 |
유사도(similarity)와 거리(distance)는 무슨 차이가 있을까?(+ cosine distance vs. euclidean distance) (0) | 2022.02.07 |
TAGS.