데이터 해석학3 - 관계가 있는 것처럼 보이는 지표를 혼용하는 오류-

1. 관계가 있는 것처럼 보이는 지표를 혼용하지 않는다

 

데이터 분석 현장에서는 측정하기 어려운 것을 정량화 할 때 '측정하기 쉬운' 지표가 우선적으로 사용되는 경향이 있다.

 

하지만 이렇게 도입된 지표가 측정하려는 것을 반영하고 있지 않는 경우가 많다.

 

예를 들어 연구자나 연구기관의 '연구 실적'을 측정할 때, 획득한 연구비의 액수가 고려되는(많으면 많을수록 좋다) 경우가 자주 있지만, 

 

이것은 연구활동의 인풋으로 사용되는 금액이며, 연구의 아웃풋과는 원래 따로 생각해야하는 지표이다.

 

즉, 사용한 금액에 비례해서 어느 정도 성과를 이루었는지에 대해서는 의미가 있는 지표이다.

 

이렇게 무엇인가의 아웃풋을 측정하고 싶은데, 측정하기 쉬운 입력과 관계있는 다른 양으로 대체하는 오류는 자주 보이는 오류중 하나이다.

 

 

2. 표준화에 따른 정보의 누락

 

데이터를 관측할때, 측정될 값의 선택지를 사전에 결정해 두는 것을 표준화(standardization)라고 한다.

 

예를 들면, 책에 대해 필자가 독자에게 평가 설문조사를 하고 그 결과를 개정판에 반영하고 싶다.

 

이 책의 서술 난이도, 내용이 참고가 되었는지, 분량이 적당한지에 대해 5단계 평가로 응답을 받는다.

 

문장에 의한 응답이 아닌 5단계 선택식으로 하는 것은 나중에 분석을 쉽게 하기 위함이다.

 

표준화를 해둔다면 데이터를 한꺼번에 처리하고 분석할 수 있는 장점이 있다.

 

또 응답자의 부담을 줄이려는 의도도 있다.

 

하지만 모든 대답을 5단계의 숫자로 정리하면서 상세한 정보를 잃을 수도 있다.

 

예를 들어 책의 난이도가 전체적으로는 알기 쉽게 쓰이더라도 1장만 유난히 어렵고 그것을 필자가 모른다고 가정하자.

 

이런 상황에서 위처럼 표준화된 5단계 설문조사를 하더라도 응답이 아무리 많아도 이를 알아차리기 쉽지 않다.

 

하지만 특정 독자 한 사람에게 필자가 직접 들었을때는 단지 1건의 데이터지만 충분히 알아차릴 수도 있다.

 

하지만 이 경우, 다수의 독자도 그렇게 생각하는지는 알기 어렵다.

 

이를 위해 자유 기술을 설문조사에 두기도 하지만, 그 역시 독자가 자세히 적어주리라는 보장은 없다.

 

 

3. 트레이드 오프

 

이렇게 데이터의 양과 취급하는 정보의 상세함에는 트레이드 오프가 존재한다.

 

최근 대량의 데이터를 수집해 분석하는 빅데이터 분석의 인기가 높아지고 있지만, 목적에 따라 데이터의 양과 정보의 상세함을 조정하는 것이 중요하다.

 

오히려 목적에 따라 데이터 분석 조차 필요없는 경우가 있을 수도 있다.

 

 

4. 정리

 

소량의 데이터 >> 데이터를 자세히 수집, 분석할 수 있다. 하지만 일부 상황만 파악할 수 있다

 

대량의 데이터 >> 표준화가 필요하다. 전체적인 경향을 파악할 수 있다.

 

데이터 관측은 관측 대상으로부터 정보를 추출하는 절차다.

 

데이터 분석의 품질에는 데이터의 품질이 그대로 반영된다.

 

알고 싶은 정보를 그대로 측정할 수 있다고는 할 수 없다.

 

취급하는 데이터의 양과 세세한 정보량에는 트레이드 오프가 존재한다.

 

TAGS.

Comments