6장 나이팅게일의 장미 그림, 7장 라플라스의 프랑스 전체 인구 추산법

1. 나이팅게일의 장미 그림, 데이터로 목숨을 구하다

 

의사에게 <히포크라테스 선서>가 있다면 간호사에게는 <나이팅게일 선서>가 있다.

 

간호사의 대명사 플로렌스 나이팅게일. 아마 많은 사람이 흰 간호복을 입고 부상병을 헌신적으로 돌보는, 말 그대로 '백의의 천사'를 떠올릴 수 있겠다.

 

그러나 나이팅게일은 헌신적인 간호사 그 이상이었다.

 

그녀는 간호와 보건 분야가 전문인 행정가이자 영국 왕립 통계학회의 첫 번째 여성 회원인 통계학자였다.

 

나이팅게일이 활동하던 시대에는 오스만 제국과 러시아 제국이 크림반도를 둘러싸고 전쟁을 벌였다.

 

현재 우크라이나에 속한 그 지역에서 일어난 전쟁이다.

 

러시아를 견제하려는 영국군이 참전하면서 나이팅게일도 부상병을 치료하기 위해 동쪽으로 떠났다.

 

임시로 지은 치료소는 열악했다. 쥐 떼가 출몰하고, 전염병이 도는 게 일상이었다.

 

나이팅게일은 부상병 간호보다 더 중요하고 급한 일이 있음을 곧바로 알아차렸다.

 

실제로 많은 영국 병사가 전투에서 생긴 부상이 아니라 처참한 위생 문제로 목숨을 잃었다.

 

나이팅게일은 "위생 환경을 개선해야 한다"고 주장했다.

 

현장에서 보기에는 당연한 사실이지만 런던의 높은 관리들에게는 그저 예산을 더 달라는 불평으로 들릴 뿐이었다.

 

런던의 높은 관리들을 설득하기 위한 나이팅게일의 전략은 바로 데이터였다.

 

나이팅게일은 치료소에서 죽은 군인들의 사망 원인을 기록해 표와 그래프로 만들었다.

 

이 자료를 런던으로 보내 관리들을 끈질기게 설득했고, 몇 달이 지난 후 환기를 개선하고 하수도를 청소하는등 치료소 환경을 개선할 수 있었다.

 

 

 

나이팅 게일이 직접 그려보냈다는 '장미 그림'은 요즘 식으로 표현하자면 원형 히스토그램이라고 할 수 있다.

 

매달 사망자 수를 세고 분류한 뒤 시간의 흐름에 따른 변화를 나타내는 그림이다.

 

장미 한 송이의 열두 꽃잎이 1년 열두 달을 나타내고, 그 꽃잎의 크기가 곧 그달의 사망자 수를 보여준다.

 

그중 빨간색 꽃잎은 총상 등 부상으로 인한 사망자 수, 파란색 꽃잎은 부상과 관계없이 위생 불량, 전염병, 영양실조 등으로 인한 사망자 수를 나타낸다.

 

<그림>의 두 '장미'중 오른쪽 장미를 먼저 살펴보자.

 

한눈에 봐도 파란 꽃잎이 빨간 꽃잎보다 크다.

 

병사들의 사망 원인이 부상이 아니라 대부분 위생 불량 때문임을 알 수 있다.

 

이번엔 오른쪽 장미와 왼쪽 장미를 비교해보자. 왼쪽의 꽃잎 크기, 즉 사망자 수가 확실히 적다.

 

오른쪽 장미는 환경 개선이 있기 전 1년 동안, 왼쪽은 환경 개선 후 1년 동안 발생한 사망자 수를 나타낸다.

 

이 <그림>은 위생 개선으로 사상자 수를 유의미하게 줄일 수 있다는 강력한 증거로 이용되었다.

 

나이팅게일은 이후에도 이 주장을 뒷받침하기 위해 장미 그림을 수차례 그렸다고 알려졌다.

 

이처럼 데이터 속 의미를 도표나 그림 형태로 제시하는 것을 '데이터 시각화'라고 한다.

 

잘 만들어진 데이터 시각화는 열 마디 말보다 강력하다.

 

 

2. 라플라스, 부분만 보고 전체를 알아내다

 

미역국을 끓였다. 소금 간이 적당할까? 맛을 알아보려고 냄비에 담긴 국을 전부 먹어볼 사람은 없다.

 

국물을 한 숟가락만 맛보면 내가 끓인 미역국 맛을 알 수 있다.

 

삼성전자에서 새로 나온 접는 핸드폰이 몇 번이나 접을 수 있는지 알아보려고 모든 핸드폰을 10만 번 이상 접어볼 필요는 없다.

 

마찬가지로 현대자동차에서 출시한 신차가 불량인지 알기 위해 생산된 모든 자동차를 조사하지도 않는다.

 

유권자가 선호하는 대통령 후보가 누구인지 알기 위해 전체 유권자 모두에게 설문할 필요도 없다.

 

일부만 조사해도 전체 여론을 대략 알 수 있기 때문이다.

 

이처럼 전체를 파악하기 위해 일부만 조사하는 것을 '표본 조사'라고 한다.

 

현대적인 의미의 표본 조사는 그 역사가 겨우 100년이 조금 넘지만,

 

무려 4000년 전 바빌론의 함무라비 왕 시대부터 부분으로 전체를 추론하는 아이디어가 사용되었다.

 

18세기 수학자 라플라스는 프랑스 인구를 추산하기 위해 약 700개 코뮌의 인구를 측정할 것을 제안했다.

 

프랑스 전역에는 약 1만개의 코뮌이 있었으며 각 코뮌에서 매년 태어나는 신생아 수는 정확히 보고돼,

 

700개 코뮌의 인구를 알면 간단한 곱셈으로 프랑스 전체 인구를 추산할 수 있다는 것이다.

 

700개 코뮌의 신생아 수를 s, 프랑스 전체의 신생아 수를 S, 그리고 700개 코뮌의 인구수가 b라면 프랑스 전체 인구수 B는 B:S = b:s 관계에 있다.

 

따라서, B = (S/s) * b

 

오늘날 기준으로 보면 몇가지 오류의 여지가 있지만, 라플라스는 성공적으로 프랑스 인구를 보고할 수 있었다.

 

국물 간을 한 숟가락으로 가늠할 수 있는 이유는 숟가락의 국물이 국 전체 맛을 대표하기 때문이다.

 

만약 냄비 아래에 있는 국물은 짜고 윗부분이 싱겁다면 골고루 섞어서 한 숟가락 뜨면 된다.

 

미역국에 담긴 소고기와 미역이 익었는지 가늠하려면 한 숟가락에 고기와 미역을 적당히 섞어서 맛보면 된다.

 

성공적인 표본 조사의 원칙도 이와 크게 다르지 않다

 

표본 조사에서 골고루 섞는 과정을 무작위 표본 추출에 의존한다.

 

무작위성에 의존해 '랜덤하게' 표본을 뽑는 방법이 전문가가 신중하게 하나하나 고르는 방법보다 더 '골고루' 섞인 표본을 선정할 수 있다.

 

잘못 시행된 표본 조사는 국을 골고루 섞는 과정이 생략되었거나 제대로 섞지 않고 싱거운 윗부분만 떠 맛보는 것과 같다.

 

TAGS.

Comments