13장 홍차 감별 속에 숨겨진 통계학의 핵심 아이디어

1. 차 마시는 여인 

 

영국의 국민 음료는 단연 홍차이다. 

 

20세기 초 영국의 로담스테드 농업연구소에서 일하던 생리학자 무리엘 브리스톨 박사도 홍차 애호가였다.

 

어느 날, 농업연구소 직원 중 하나인 로널드 피셔가 브리스톨 박사에게 홍차를 타서 권했다.

 

그녀는 거절했다.

 

잔에 차보다 우유를 먼저 따랐다는 것이 이유였다.

 

차를 먼저 따른 뒤에 우유를 따라야 진짜 영국식 홍차이다. 

 

브리스톨의 주장이다. 

 

피셔는 우유를 먼저 따르든 홍차를 먼저 따르든 맛에 차이가 있을 리 없다고 화를 냈고,

 

이 사달을 지켜보던 브리스톨 박사의 남편 윌리엄 로치는 작은 실험을 제안했다.

 

브리스톨 박사는 우유를 먼저 따른 홍차와 차를 먼저 따른 홍차를 정말 구별할 수 있을까?

 

로치의 실험은 다음과 같았다.

 

우유 - 차, 차 - 우유 순서로 따른 홍차 3종을 각각 준비한 뒤에 브리스톨 박사가 맛을 구별할 수 있는지 알아보는 것이었다.

 

얼마나 정확히 맞혀야 브리스톨 박사가 홍차 맛을 감별해낼 수 있다고 인정할까?

 

3잔의 차 - 우유 홍차를 모두 맞혀야 홍차 감별사일까?

 

셋 중 둘만 골라낼 수 있어도 충분할까?

 

 

2. 피셔의 통계적 가설검정

 

차 마시는 여인 실험으로 알려진 이 흥미로운 일화에는 사실 현대 통계학의 핵심 아이디어가 담겨있다.

 

여기 대립하는 두 주장이 있다.

 

1) 브리스톨: 브리스톨 박사는 홍차 감별사이다.

 

2) 피셔: 브리스톨 박사는 사기꾼이다. 맛을 구별하지 못한다.

 

피셔는 브리스톨 박사가 맛을 구별하지 못하더라도 우연히 운이 좋아서 차-우유 순으로 따른 홍차를 맞힐 수 있다고 보았다.

 

만약 맛을 구별하지 못한다면 그녀는 6잔 중 3잔을 그저 느낌대로 고를 뿐이다.

 

피셔의 머릿속으로 들어가보자.

 

브리스톨 박사는 맛을 구별하지 못한다. 따라서 그녀가 선택할 3잔은 6잔의 홍차 중 셋을 무작위로 고른 것일 뿐이다.

 

이때 '우연히' 차-우유 순으로 탄 홍차 3잔을 모두 고를 가능성은 얼마나 될까?

 

6잔의 홍차에 1,2,3,(4),(5),(6) 숫자를 붙여놓는다.

 

(4), (5), (6)번 잔에 그녀가 원하는 차-우유 홍차가 있다.

 

맛을 구별하지 못하는 브리스톨 박사는 1,2,3이나 1,2,4번 잔을 고를 수도 있고, 4,5,6번 잔을 골라 세 정답을 모두 맞힐 수도 있다.

 

모든 경우를 나열하면 6C3 = 5*4 = 20가지이다.

 

6개 중 3개를 고르는 경우의 수 20은 고등학교 수학 시간에 배우는 조합으로 찾을 수 있다.

 

6잔 중 3잔을 고른다면 첫 잔은 6개 중 하나, 두번째는 남은 5개 중 하나, 세번째 선택은 4개중 하나이므로 6*5*4 = 120가지의 다른 순서로 고를 수 있다.

 

이때 1,2,3을 답으로 고른 것과 1,3,2, 3,2,1등을 답으로 고른 것은 모두 같으므로 세 숫자를 나열하는 가짓수 3*2*1 = 6개만큼의 똑같은 답들이 120가지 경우에 반복해 있다.

 

따라서 서로 다른 답들의 가짓수는 120/6 = 20이다.

 

이 중 3잔을 모두 맞히는 경우는 단 하나 4,5,6이다.

 

브리스톨 박사가 요행히 모두 맞히는 경우는 20가지 중 하나인 확률 5%밖에 되지 않는다.

 

사기꾼인 브리스톨 박사가 3잔을 모두 맞히는 일은 매우 드물고 일어나기 어려운 일이다.

 

생각을 끝낸 피셔는 3잔의 차-우유 홍차를 모두 맞혀야 브리스톨 박사를 인정할 수 있다고 주장했다.

 

브리스톨 박사가 3잔을 모두 맞히는 사건은 피셔의 주장과 모순되므로 피셔는 자신의 주장을 접고 브리스톨 박사가 홍차 감별사임을 믿을 수 있게 되는 것이다.

 

역사에 기록된 이 사건에는 사실 8잔의 홍차가 동원되었다.

 

브리스톨 박사는 그중 4잔을 정확히 맞혔다고 전해진다.

 

이 이야기에 등장하는 로널드 피셔는 현대 통계학의 아버지라 부를 만한 인물이다.

 

피셔는 통계학뿐 아니라 통계적 절차를 통해 과학적 결론을 내리는 모든 실험 과학 분야에 지대한 영향을 미쳤다.

 

과학, 농학, 화학, 공학 등에서 효율적으로 실험을 계획하고 논리적인 결론을 내리는 방법을 통계적으로 풀어 쓴 <실험계획법>에서

 

피셔는 이 차마시는 여인 이야기와 함께 확률 5%보다 작게 일어나는 사건을 '드문 사건'이라고 칭했다.

 

새로운 과학적 가설(브리스톨 박사는 홍차 감별사이다)을 채택하기 전에 기존 가설(브리스톨 박사는 사기꾼)이 사실일 때 관찰된 사건이 얼마나 드물고 희귀한 일인지 확률적으로 가늠한다.

 

이 값이 작다면 관찰된 데이터와 기존의 가설이 모순되므로 새로운 과학적 가설을 채택할 수 있다.

 

'통계적 가설검정'이라고 불리는 이 방법이 곧 데이터에 기반한 과학적 발견의 기초적 논리와 절차이다.

 

 

 

 

 

TAGS.

Comments