9장 예측 불가능한 랜덤을 예측하는 방법

1. 예측 불가능한 랜덤 속에 존재하는 예측 가능성

 

유치원에 다니는 아들이 발표회를 한다고 했다. 그래서 물었다. "보통 엄마, 아빠가 몇 명이나 오시니?"

 

아들이 대답했다. "몰라" 다시 물었다. "왜 몰라? 몇 분이나 오셔?" 아들은 다시 대답했다.

 

"그걸 어떻게 알아. 할 때마다 다른데. 랜덤이라고. 모르는게 당연하지."

 

핸드폰 게임과 유튜브에 익숙한 아이는 "랜덤"이란 단어를 정확히 알고있다.

 

아이 말에는 일리가 있다. 할 때마다 다를 수 밖에 없는 발표회 참석 인원을 정확하게 예측할 수는 없다.

 

그러나 유치원 선생님에게 여쭤보면 원하는 답을 얻을 수 있다.

 

부모와 가족 참석자는 대략 20~30명이라고 한다.

 

아이에게 랜덤은 예측 가능하지 않다. 그래서 아무 답도 줄 수 없다고 생각한다.

 

하지만 유치원 선생님은 랜덤인 사건에서도 패턴을 파악한다. 

 

랜덤 또는 무작위란 규칙성이 없거나 정형화된 양식이나 패턴이 없고 예측가능하지 않은 성질이다.

 

그렇다고 해도 랜덤에는 체계가 있고, 규칙이 있다.

 

유치원 선생님이 파악한 패턴은 바로 '범위'이다. 발표회 참석자 수는 변할 수 있는 수이므로, '변수'라고 부른다.

 

이 변숫값은 통제할 수 없고 예측 불가능한 랜덤한 수이므로 '랜덤변수'라고 부른다.

 

혹시 '확률변수'라는 단어를 들어보았다면 확률변수와 랜덤변수는 같은 말이다.

 

랜덤변수 값은 알 수 없지만 유치원 선생님처럼 그 변수가 가질 수 있는 범위를 파악하는 것은 가능하다.

 

 

2. 확률변수의 분포

 

 

 

20~30명 사이에서 값은 보여주는 발표회 참석자 수의 분포에 대하여 아무런 단서가 없다면 위와 같은 '균등분포'가 어울린다.

 

참석자가 20~30명 중 하나일 가능성이 모두 같으므로 각각의 확률이 1/11로 같다.

 

 

 

만약 위와 같은 형태를 보인다고 할 수 있다면 더 많은 정보를 내포하는 것이다.

 

쌍봉 형태의 위 분포는 가운데 값인 25명일 가능성은 작다는 뜻으로 생각할 수 있다.

 

 

 

위와 같은 '단봉'형태는 가운데 값인 25명일 가능성이 높다는 정보를 내포하고 있다.

 

의자를 25개 근처값으로 준비한다면 높은 확률로 참석자 모두를 앉힐 수 있다.

 

하지만 쌍봉형태라면, 참석자가 20명 정도일 수 있고, 30명 정도일 수 있어서 2가지 시나리오를 모두 염두에 두어야한다.

 

랜덤인 변수의 값이 어느 정도의 가능성과 확률로 특정한 값이 될지 정리한 것을 분포라고 한다.

 

확률로 표현되는 분포이므로 확률분포라고 부르기도 한다.

 

확률분포를 안다면 랜덤의 패턴을 정확히 아는 셈이다.

 

랜덤한 변수의 패턴을 확률분포로 정확히 기술한다고 해도 이것을 이해한 뒤 의사결정에 활용하는 것은 여전히 어렵다.

 

그래서 분포의 패턴을 평균, 중앙값, 최빈값 등으로 요약한다.

 

유치원 선생님이 이용한 확률분포의 범위 역시 좋은 요약이다.

 

분포의 퍼진 정도를 기술하는 표준편차와 분산 역시 좋은 요약이다.

 

여기서 더 나아가 통계학에서는 분포의 치우침, 분포의 가운데가 뾰족한 정도나 양 끝 '꼬리' 부분이 뚱뚱한 정도 등 다양한 지표가 쓰인다.

 

랜덤이라고 모두 같지 않다.

 

패턴을 파악하면 확률적으로 더 좋은 의사결정이 가능하다.

 

TAGS.

Comments