3장 점술가의 데이터 사용법, 4장 데이터 없이는 통계도 없다

1. 점술가가 미래를 예측하는 방법

 

사람들은 마음을 의지하고 싶거나 그저 재미로 종종 점집을 찾는다.

 

점술가가 자신의 과거, 현재, 미래를 꿰뚫어 보았다는 누군가의 증언이 있으면 더 솔깃해진다.

 

고객의 생김새, 행동거지, 옷매무새 등과 짧은 대화만으로 그의 특성을 단시간에 파악하고

 

엇비슷한 부류의 전형적인 고민거리와 배경을 빠르게 도출해내는 점술가가 유려한 언변과 태도, 유연한 대응, 

 

여기에 손님들의 '생존자 편향'이 더해진다면 '용한 점술가'가 탄생할 수 있다.

 

생존자 편향이란 좋은 경험만 공유하고, 좋지 않은 경험은 함구하는 경향을 말한다.

 

영민한 점술가는 본인이 의도하지 않더라도 통계의 가장 기본적인 얼개를 이용한다.

 

자신의 상담 경험과 기존 사례들(이를 데이터로 볼 수 있다)을 기반으로

 

지금 눈앞에 앉아 있는 초조한 눈빛의 고객이 지닌 특성과 가장 가까운 사례와 경험을 추려 확률적으로 가장 그럴듯한 과거 예측과 미래 예언을 내놓는다.

 

이른바 조건에 맞는 특정 데이터를 기반으로 추측하는 통계 예측의 뼈대를 그대로 활용하는 것이다.

 

손님이 값비싼 양복을 입은 50대 남성이면 사업 문제가 고민일 것이고, 평범한 중년 여성이면 자식 문제가 고민이라고 짐작하는 식이다.

 

통계학자와 점술가의 성향은 물론 다르다. 통계학자는 예측에 조심스럽다.

 

통계학자는 조건에 맞는 사례중 점술가가 골라 예언하는 미래가 정말 일어날지 몰라도 여전히 매우 낮은 확률을 고려해 쉽게 예언하지 않을 것이다.

 

 

2. 통계의 시작은 데이터

 

통계란 무엇인가?

 

한자로 풀어보면 '통할 통(通)'자와 '셀 계(計)'가 합해진 단어로 '서로 잘 이어지도록 세거나 계산하다'라는 뜻이다.

 

그런데 무엇을 센다는 뜻일까? 그 대상이 없다.

 

아주 오래된 옛날, 고대사회에서는 사람의 수와 전답의 크기를 세는 것이 가장 중요했다.

 

실제로 인구총조사는 기원전 4세기 로마에서 시작됐다.

 

우리나라 기록중 가장 오래된 통계 조사는 신라시대였다. 

 

<신라민정문서>는 신라 지역의 마을을 구성하는 남성, 여성, 어린이, 성인, 노인 등으로 일목요연하게 나눠 인구수를 기록하고 있다.

 

이처럼 한 나라의 인구수와 경제력을 파악하는 것이 통계의 시작이라 할 수 있겠다.

 

통계를 뜻하는 영어 단어인 'statistics' 역시 국가(state)와 산술(arithmetic)로 이루어져 있는 것도 우연이 아니다.

 

과거의 통계와 통계학은 국가와 공동체의 상태에 관한 데이터를 다루는 과학이었던 셈이다.

 

즉 통계의 시작은 데이터라 할 수 있다.

 

기원전부터 근세까지는 국가에 대한 데이터 자체가 곧 그 국가의 힘을 나타냈다.

 

세금을 거두고, 병역과 노역을 부과하는 근거를 제공하는 것이 곧 데이터이다. 

 

조선시대에는 호적이 있었다.

 

호주를 중심으로 그 집안에 속한 사람들의 이름과 나이, 직역(국가가 백성에게 특정 직을 역으로써 부과한 것) 및 조상에 대한 정보를 조사해 그 결과를 기록한 장부가 호적이다.

 

이 호적은 3년에 1번씩 기록했으며 조선왕조가 백성에게 세금과 병역 등을 부과하는 기준으로 이용되었다.

 

대한민국에서도 이 호적 제도는 무려 2008년까지 유지하다 폐지했는데 같은 데이터를 다른 방식으로 정리한 가족관계등록부 같은 제도로 남아있다.

 

3. 현대사회의 데이터

 

현대 사회의 데이터는 더 광범위하다.

 

국가에 해당하는 제도나 공익을 위한 자료가 아니어도 상관없다.

 

무엇이든, 어떤 형태이든, 어떤 목적이든 여러 값을 기록해놓은 것이 곧 데이터이다.

 

숫자로 이루어질 필요도 없다.

 

문자, 사진, 영상 등 무엇이든 여럿을 모아놓는다면 데이터라고 부를 수 있다.

 

날씨를 매일 관측해 기록한 것도 데이터이며 곤충을 채집해 마릿수와 그 특성을 기록한 것도 데이터이다.

 

은행에서 고객의 계좌 잔액과 입출금 명세를 기록한 장부 역시 데이터이며

 

백신 개발을 위해 몇십만명의 성인을 대상으로 백신의 효능을 시험한 결과도 데이터이다.

 

네이버, 구글, 유튜브, 넷플릭스 같은 인터넷 기업에서 이용자들의 접속 기록, 검색 및 동영상 시청 이력도 역시 데이터이다.

 

컴퓨터로 대표되는 전자기록장치가 등장하면서 사람이 일일이 기록하지 않아도 데이터가 쌓인다.

 

<뉴욕타임스>가 하루에 싣는 정보 양은 17세기 평범한 한 사람이 평생에 걸쳐 소비하는 정보 양과 비슷하다고 한다.

 

실제로 디지털 데이터의 양은 매년 2배씩 증가하고 있고 그 크기가 무려 44조 기가바이트를 넘는다. 

 

2018, IDC 조사

 

 

4. 통계학의 의미

 

과거의 데이터는 국가가 소유한 재산이라면 지금은 기업, 민간 조직, 개인 누구나 데이터를 소유할 수 있다.

 

그렇다면 이처럼 막대한 양의 데이터가 곧 힘, 권력이 될 수 있을까?

 

꼭 그렇지만은 않다.

 

인구조사 결과나 호적은 그 자체가 정제된 정보이므로 데이터의 크기가 작지만 하나하나 매우 중요한 정보이다.

 

하지만 폭발적으로 늘어난 현대의 데이터는 그 반대이다. 유용한 정보는 데이터 속에 숨어 있다.

 

통계학은 '데이터를 다루는 과학'이며 통계는 '서로 잘 이어지도록 가공된 정보'이다.

 

데이터 없이는 통계도 없다.

 

현대 통계학은 여기서 그치지 않는다. 이렇게 구한 '정보'가 얼마나 정확한가?

 

이 밑도 끝도 없어 보이는 질문의 대답을 찾기 위한 부단한 노력이 곧 통계학이다. 

 

통계는 통계학과 같지 않다. 이는 수와 수학이 다르고, 물리현상과 물리학이 다르고, 생명체와 생명과학이 다른 것과 같은 이치이다.

 

 

 

 

TAGS.

Comments