data augmentation은 왜 사용해야할까?

1. train data의 문제점

neural network는 데이터를 컴퓨터만 이해할 수 있는 지식의 형태로 녹여넣는 모델

데이터를 통해 패턴을 분석하고자하는 것인데 모델이 데이터를 편식하지 않고 전부 가져가면 가장 좋다

우리가 train data로 얻은 이미지들은 사람이 카메라로 찍은 이미지들이다.

사람이 카메라로 찍었다는 것은 당시 유행?에 따라 사람들이 보기 좋게 찍은 bias된 이미지

그러나 실제 세상은 사람들이 보기 좋게 찍은 구도 말고도 여러가지 많다

실제 test time에서는 어떤 image가 들어올지 모른다 이 말이야

이게 왜 문제냐? 눈에 보기 좋게 밝은 이미지들로 구성된 train data로만 학습한 모델이 있다고 하자

이것은 모델이 잘못한 것일까? 사실 학습데이터셋이 진짜 real data를 전부 표현하지 못해서 생기는 문제

728x90

RNN(Recurrent Neural Network)이란 무엇인가? (0)	2022.02.15
다양한 sequential model들 (0)	2022.02.14
sequence 데이터를 모델링하는 방법 (0)	2022.02.11
transfer learning이란 무엇일까? (0)	2022.02.09
유사도(similarity)와 거리(distance)는 무슨 차이가 있을까?(+ cosine distance vs. euclidean distance) (0)	2022.02.07