5장 데이터는 어떻게 정보가 되는가

1. 데이터에서 쓸모있는 정보를 찾아내는 것은 쉽지 않다

 

사람들은 합리적인 의사결정을 위해서 데이터를 찾는다.

 

인터넷 브라우저나 스마트폰의 네이버 지도에서 맛집을 검색하면 여러 유용한 정보를 쉽게 찾을 수 있다.

 

우리는 그 동네의 식당 명단과 함께 별점, 방문자와 블로거의 논평 같은 '정보'를 기반으로 이번 주말에 친구들과 갈 음식점을 정한다.

 

정부도 데이터를 구한다.

 

2020년 대한민국 통계청이 발표한 인구주택총조사에 따르면 1인 가구 비중은 전체 가구 수의 31.7%이며 점점 증가하는 추세에 있다.

 

1인 가구 중 20대는 19.1%, 70대 이상이 18.1%라고 한다. 이 정보를 바탕으로 정부는 1인 가구에 대한 사회보장 정책을 세운다.

 

그렇다면 데이터는 곧 정보일까?

 

정리되지 않은 데이터는 쓰레기 밭과 같다. 데이터를 잘 정리해 필요한 정보를 톺아보아야 할 필요가 있다.

 

데이터를 정리하고 요약해 의미가 통하도록 하는 것. 우리가 흔히 상상하는 통계이다.

 

잘 정리된 것처럼 보이는 인구주택총조사 결과는 그 자체로 통계 수치이지만 이마저도 충분하지 않다.

 

1인 가구 비중이 31.7%이므로 우리나라 사람 셋 중 하나는 혼자 사는가? 그렇지 않다.

 

대한민국 전체 가구 수는 약 2000만 가구이다. 혼자 사는 인구수는 약 660만 명, 전체 인구의 약 12%일 뿐이다.

 

참고로 대한민국 전체 가구 수, 1인 가구 수와 전체 인구수는 통계청 국가통계포털에서 찾아볼 수 있다.

 

정보의 원천이 곧 데이터이지만 데이터로부터 유용한 정보를 뽑아내는 것은 간단하지 않다.

 

기업의 경우를 살펴보자.

 

가맹점 수가 몇백 개씩 되는 소매 기업들은 흔히 포스기라고 부르는 판매시점정보관리기를 이용해

 

각 점포의 품목별 판매량과 매출을 실시간으로 관리한다.

 

이 방대한 데이터는 어딘가의 서버에 쌓인다.

 

데이터에 기반한 영업을 장려하고 싶은 이 기업의 대표는 판매량과 매출 데이터를 직원들과 점장들에게 공유한다.

 

대표는 원하는 목표를 이룰 수 있을까? 그렇지 않다.

 

방대한 데이터는 접근조차 쉽지 않다.

 

제아무리 매출이 높은 지점과 잘 팔리는 제품을 확인해도 데이터의 표면에서는 쉽게 그 답을 구하기 어려운 질문들도 허다하다.

 

대표가 원하는 바를 이루려면 먼저 데이터를 정리해 요약하고 패턴을 파악해야 한다.

 

구슬이 서 말이니 꿰어서 보배를 만들어야 하는 것이다.

 

어떤 제품이 특정한 점포에서 잘 팔리는 이유는 무엇인지, 다른 점포와 다른 점이 무엇인지 데이터 속에 숨은 '쓸모 있는 정보'를 찾는 과정이 필요하다.

 

데이터 분석의 중요성이 부각되는 지점이다.

 

미국의 대통령 선거와 국회의원 선거 결과를 정확하게 예측한 것으로 유명한 미국의 통계학자 네이트 실버는 데이터에 신호와 소음이 섞여있다고 말한다.

 

방대한 데이터에서 신호를 찾는 것은 마치 모래밭에서 바늘을 찾는 것과 다를 바 없다.

 

바늘을 찾기 위해 모래밭을 전부 뒤집어볼 수도 없다.

 

숨은 바늘을 찾는 과학, 데이터 밭에서 소음은 걸러내고 신호를 찾는 과학이 곧 통계학이다.

 

 

 

TAGS.

Comments