25장 중심극한정리

1. 가장 자연스러운 분포, 정규분포

 

모든 수험생이 치른 대학수학능력시험 점수는 정규분포를 따른다.

 

20세 건강한 남자의 평균 키도 마찬가지다.

 

300ml 콜라 캔에 든 용량은 정확히 300ml가 아니다. 어떤 캔은 301ml일 수도 있고 어떤 캔은 299ml일 수도 있다.

 

캔마다 다른 용량의 분포도 정규분포이다.

 

정규분포는 통계 개념 중 가장 널리 쓰인다.

 

정규분포는 기준이 되는 어떤 값 평균을 중심으로 '자연스럽게' 퍼진 분포를 나타낸다.

 

콜라 캔에 담긴 용량이라면 300ml가 중심이다.

 

자연스럽게 퍼졌다는 뜻은 250ml나 330ml처럼 중심으로부터 매우 먼, 용량이 너무 적거나 많은 경우는 매우 드물다는 뜻이다.

 

20세 남성의 키는 중심이 되는 평균(174cm) 주변에 가장 많고 174cm에서 멀어질수록 그 비율이 빠르게 줄어들어

 

194cm이상이거나 154cm 미만인 경우는 거의 없다.

 

그 분포 모양이 마치 가운데가 크고 뚱뚱한 종을 닮아 '종 모양의 분포'라고 부르기도 한다.

 

 

 

키, 몸무게, 지능지수, 시험점수, 실험결과 등 사람이나 상황에 따라 달라지는 값들이

 

언제나 어떤 특정한 분포를 따르는 것을 발견한 20세기 초,

 

사람들은 이것이 전형적이며 가장 자연스러운 분포라고 생각했다.

 

이른바 '정상적인(normal)' 분포, 정규분포이다.

 

정규분포는 그 이름 때문에 잘못된 차별의 근거로 지목되기도 했다.

 

과연 내 지능지수가 정규분포가 기술하는 평균에서 멀면 비정상인가?

 

독일 나치정권이 멸망한 70년 전 우생학과 함께 사라졌어야할 질문이다.

 

어떤 실험결과가 정규분포를 따르지 않으면 비정상인가? 결코 그렇지 않다.

 

정상적인 실험 결과가 정규분포를 따르지 않는 경우는 매우 많다.

 

그러나 상당히 많은 자연 현상의 관측값들은 실제로 정규분포를 따르는 경향이 있다.

 

그저 우연일까?

 

2. 중심극한정리, 자연 현상이 정규분포를 따르는 건 우연이 아니다

 

정규분포와 비슷하지만 모양이 조금 다른 확률분포 중 라플라스 분포가 있다.

 

뾰족하게 생긴 분포이다.

 

 

 

 

 

자연의 측정값들은 왜 라플라스 분포가 아닌 정규분포를 따르는 경향이 있을까?

 

놀랍게도 우연을 설명하는 정규분포는 사실 필연적인 법칙이다.

 

사람의 키를 예로 들어 설명해보자.

 

어떤 사람의 키는 매우 많은 요인으로 결정된다.

 

유전, 운동량, 건강, 생활습관, 주변 환경 등 다 파악하지 못할 정도로 많다.

 

건강 상태의 영향은 정규분포를 따르지 않을 수 있다.

 

주변 환경의 영향은 라플라스 분포를 따를 수도 있다.

 

이처럼 정규분포를 따르지 않는 요인이 복합적으로 작용해 결정되는 사람의 키가, 굳이 정규분포를 따라야할 이유는 없다.

 

그런데도 사람의 키는 정규분포를 따른다.

 

여기에 정규분포를 가장 중요하게 만든 수학의 비밀이 있다.

 

어떤 형태의 변동이든, 요인이든 아주 많이 더하면 그 분포는 언제나 정규분포로 수렴한다.

 

이를 '중심극한정리'라고 부른다.

 

프랑스 수학자 아브라함 드무아브르가 처음 발견하고 라플라스가 처음 증명했다.

 

여기에 '중심극한정리'라고 이름이 붙은 것은 세계적인 수학자 폴리아 때문이라고 한다.

 

어떤 분포의 변동이라도 아주 많이 더해지면 정규분포를 따른다는 사실은 경험적으로 확인된 사실이자,

 

수학적으로 증명된 필연적인 사실이다.

 

정규분포가 정상적인 사람들의 통계 법칙인지는 모르겠지만 통계학자들에게 가장 중요한 법칙인 것은 사실이다.

 

 

 

 

 

TAGS.

Comments