데이터 해석학2 -측정은 왜 어려운가?-

1. 필요한 데이터가 전부 수집되는 것은 당연하지 않다.

 

최근에 다양한 것들이 디지털화되어 날마다 많은 양의 데이터가 생성되고 있다. 

 

그래서 모든 것을 간단히 데이터로 수집할 수 있다는 착각에 빠지기 쉽지만, 오히려 관측하기 쉬운 데이터는 방대하게 생성되지만, 관측하기 어려운 데이터는 여전히 손에 넣기 어렵다.

 

따라서 효율적으로 의사결정이나 데이터 해석을 할 수 있도록 데이터 수집의 수준을 가능한한 높이는 것이 중요하다.

 

 

2. 추상적인 것을 측정해야할때

 

측정하고 싶은 것이 '인구'와 같이 이견의 여지가 없는 것이라면 아주 쉽지만, '신제품의 호감도', '사람의 지적능력'같이 조금이라도 추상적인 개념이 들어간다면 어떨까?

 

이렇게 수치화되어 있지 않은 것을 데이터화하려고 할 때는, '측정 가능한 것'으로 대체해야하지만, 이것이 여러가지 문제를 일으킨다.

 

'원래 측정해야할 것과는 엄밀하게 다른 것을 측정하고 있다'는 매우 중요하다.

 

 

3. 측정에 따른 정보의 누락

 

예를 들어 사람의 지적능력을 측정하는 경우를 생각해보자.

 

우선, '인간의 지능'이란 무엇인가를 정의해야 한다.

 

여기에는 여러가지 답이 있을 수 있다.

 

'논리적으로 사물을 생각하거나 문제를 해결하는 능력'으로 정의하는 방법은 '개념적 정의(conceptual definition)'

 

이런 개념적 정의가 있더라도 수치화하는 것은 쉽지 않다.

 

그래서 심리학자 데이비드 웩슬러는 지능을 측정하는 웩슬러 성인 지능 검사라는 테스트를 개발했다. 

 

이것이 유명한 IQ(intelligence quotient) 테스트로, 현재 가장 많이 쓰이는 지능검사이다.

 

이렇게 측정(IQ검사)이라는 조작으로, 무엇인가(여기서는 지능)를 정의하는 것을 조작적 정의(operational definition)라고 한다.

 

어떤 정의가 좋은지는 데이터 분석의 목적에 따라 다를 것이다.

 

 

4. 조작적 정의의 함정

 

조작적 정의에 의한 데이터 관측은 어디까지나 대상의 '측정할 수 있는 한 가지 측면'만을 반영한 것에 지나지 않음에 주의해야한다.

 

IQ 검사가 사람의 지능을 모두 나타내는 것은 아니라는 소리

 

이때 반드시 일부 정보가 사라지게 되지만, 측정한 지표에만 너무 집착한 나머지 본질을 놓칠 수 있다.

 

예를 들어, 코로나바이러스의 신규 확진자 수가 매일 뉴스에 나오지만, 이 숫자만으로 국내 감염의 상태를 정확하게 파악하기는 어렵다.

 

왜냐하면 매일 변화하는 검사 방법에 따라 숫자가 변하고, 아직 발병하지 않은 잠재적인 환자의 수를 파악하는 것도 필요하기 때문이다.

 

그럼에도 불구하고 신규 확진자 수가 모든 상황을 대표한다고 해석해버리는 사람도 많다.. 난가?

 

이런 잘못된 해석을 하지 않기 위해 중요한 것은,

 

1) 관측에 의해 측정되고 있는 것이 무엇인가?

 

2) '정말 측정하고 싶은 것'중에서 파악하지 못한 요소가 무엇인가?

 

이 둘을 명시적으로 파악하고, 파악하지 못한 요소에 의해 예상하지 않은 일의 발생 가능성을 체크하는 것이다.

 

또 필요에 따라 하나의 지표에 구애되지 않고 가능한 다각적으로 평가하는 것도 효과적이다.

 

TAGS.

Comments