데이터 해석학1 - 관측된 데이터가 항상 정확하지는 않다

1. 관측된 데이터가 항상 정확한 것은 아니다

 

데이터 분석의 목적은 수집한 데이터를 사람이 해석하고 이용할 수 있는 형태로 변환해서 분석 대상을 이해하거나 예측하는 것이다.

 

분석 대상으로부터 데이터를 수집하는 것이 관측(observation)

 

관측은 분석 대상으로부터 정보를 끄집어내는 작업이지만, 관측으로 얻은 데이터가 항상 정확하게 알고 싶은 정보를 반영하고 있지는 않다.

 

오히려 관측 과정에서 여러 의미로 왜곡된다

 

이러한 왜곡을 편향(bias)이라고 한다.

 

 

2. 쓰레기를 넣으면 쓰레기가 나온다

 

데이터 분석에서 "쓰레기를 넣으면 쓰레기가 나온다(Garbage in, garbage out.)"는 표현이 있다.

 

아무리 뛰어난 분석 방법이라도 분석할 데이터의 품질이 나쁘면 분석된 결과도 도움이 되지 않는다라는 것이다.

 

데이터 분석은 관측한 데이터를 쉽게 이용할 수 있게 변환하는 작업이므로, 수집한 데이터의 품질이 분석 결과에 그대로 반영된다.

 

그러나 데이터는 관측할 때 왜곡되므로, 이 왜곡을 제거하거나 보정하는 작업이 아주 중요하다.

 

특히 해석 방법이 정립되지 않은 새로운 문제나 데이터는 세심한 주의를 기울여도 쉽게 잘못된 결론을 낼 수 있으므로 주의해야한다.

 

반대로 이것은 데이터의 품질을 높인다면, 분석 결과의 품질을 높일 수 있다는 말도 된다.

 

분석 과정에서 여러가지 분석 방법을 시험하면서 데이터를 가공하지만, 품질이 좋은 데이터를 수집하기 위한 연구만으로도 오히려 간단히 문제가 해결되는 경우도 많다

 

 

3. 알고싶은 정보를 전부 얻을수는 없다

 

알고 싶은 정보를 전부 관측으로 얻을 수 없는 경우도 많다.

 

어떤 상품의 국내 인지도를 알기 위해, 전 국민을 대상으로 상품에 관한 설문조사를 하는 것은 비현실적이다.

 

그래서 지인에게 설문조사를 한다면, 대략 지명도가 어느정도인지 알 수 있지만, 전국의 지명도와 일치한다고 말할 수는 없다.

 

지인이나 가족과 같은 주변 사람들은 자기 자신과 비교적 비슷한 양식의 생활을 하므로 거기서 얻은 데이터는 '편향된 데이터'가 되어버리기 때문이다.

 

 

4. 표본추출(sampling)

 

극히 일부의 인원을 편향되지 않게 잘 선택하여 설문조사 할 수 있다면, 이야기가 달라진다.

 

전체 대상에서 일부를 선택하고 관측하는 것을 표본추출(sampling)이라고 한다.

 

표본추출이 적절히 이루어진다면 일부의 관측 결과로부터 높은 정확도로 전체에 대한 예측을 할 수 있다.

 

하지만 항상 적절히 이루어진다고 할 수는 없다.

 

관측 대상을 고를 수 없거나, 오히려 표본추출이 불가능한 경우도 많다.

 

TAGS.

Comments