data augmentation은 왜 사용해야할까?

1. train data의 문제점

 

neural network는 데이터를 컴퓨터만 이해할 수 있는 지식의 형태로 녹여넣는 모델

 

데이터를 통해 패턴을 분석하고자하는 것인데 모델이 데이터를 편식하지 않고 전부 가져가면 가장 좋다

 

그러나 실제 세상의 데이터들은 bias가 많다

 

우리가 train data로 얻은 이미지들은 사람이 카메라로 찍은 이미지들이다.

 

사람이 카메라로 찍었다는 것은 당시 유행?에 따라 사람들이 보기 좋게 찍은 bias된 이미지

 

보기 좋은 구도로 찍은 train 이미지들

 

그러나 실제 세상은 사람들이 보기 좋게 찍은 구도 말고도 여러가지 많다

 

실제 test time에서는 어떤 image가 들어올지 모른다 이 말이야

 

 

train data는 실제 real data 분포에서 아주 극히 일부 sampling된 데이터라고 볼 수 있다

 

이게 왜 문제냐? 눈에 보기 좋게 밝은 이미지들로 구성된 train data로만 학습한 모델이 있다고 하자

 

train 과정에서 한번도 보지 못한 어두운 고양이 사진이 들어오면 모델이 당황해서 인식을 제대로 못함

 

 

이것은 모델이 잘못한 것일까? 사실 학습데이터셋이 진짜 real data를 전부 표현하지 못해서 생기는 문제

TAGS.

Comments