30장 두 변수가 관계가 없다

1. 통계학의 목적

 

통계학의 가장 큰 목적은 미지수를 추측하는 일이다.

 

문제의 종류에 따라 추측 대신 추정, 예측, 가설검정 등의 용어가 쓰이지만 결국에는 모두 미지의 값을 추측한다고 볼 수 있다.

 

추측을 잘하려면 먼저 이 미지의 값에 영향을 주는 요인을 알아야한다.

 

이와 더불어 바로 이 요인과 추측하고자 하는 대상의 관계를 알아야 한다.

 

변수 간의 관계를 파악하는 것이 통계학의 핵심이다.

 

명문대학에 지원할 때 부모가 영향력 있는 사람인 것이 결과에 영향을 미칠까?

 

어느 명문대학에 지원하는 A는 이렇게 생각할 수 있다.

 

"내 부모가 평범한 회사원이어서 나는 합격할 수 없어"

 

이 문제에서는 두 변수가 있다.

 

여기서 변수란 변할 수 있는 값이란 뜻이며 꼭 숫자가 아니어도 괜찮다.

 

첫번째 변수는 예측 대상인 명문대학 입학시험의 합격 여부이다.

 

합격할 수도 있고 떨어질 수도 있으므로 변수이다.

 

두번째 변수는 부모의 영향력 여부이다.

 

부모가 고위관료, 정치인, 유명 기업인, 교수 등이어서 영향력이 있거나 그렇지 않거나 둘 중 하나이다.

 

A의 생각이 기우이기를 바라지만 일단 그 예측을 그대로 받아들여보자.

 

A의 생각이 사실이라면 '영향력 변수'값이 '영향력 없음'일 때 예측은 언제나 '불합격'이다.

 

이보다 더 강력한 관계는 없다.

 

반대로 두 변수가 관계가 없다면 부모의 영향력이 명문대학 합격 여부에 어떤 도움도 되지 않아야 한다.

 

우연의 패턴을 파악하려면 조건부 확률로 표현하는 것이 좋다.

 

 

2. 두 변수의 독립

 

부모가 영향력이 있을 때 대학에 합격할 확률과 그렇지 않을 때 대학에 합격할 확률, 두 조건부 확률이 같을 때 

 

두 변수는 서로 전혀 관계가 없다.

 

수식으로 쓰자면 다음과 같다. 명문대학 합격률이 예를 들어 10%이다.

 

Pr(합격|영향력 있는 부모) = Pr(합격|영향력 없는 부모) = Pr(합격) = 10%

 

통계학에서는 이때 두 변수가 '독립'이라고 한다.

 

독립적이지 못한 두 변수는 서로 영향을 준다.

 

예를 들어 A의 생각이 사실이라면 두 조건부 확률값은 다르다.

 

Pr(합격|영향력 있는 부모) = 20%

 

Pr(합격|영향력 없는 부모) = 0%

 

한 변수의 값이 다른 변수의 값에 지대한 영향을 미치므로 두 변수는 강력한 관계가 있다.

 

통계 용어로는 상관관계가 있다고 한다.

 

두 변수가 관계가 있다고 해서 영향력이 있는 부모를 둔 것이 명문대학 합격의 이유라고 단정할 수는 없다.

 

상관관계가 인과관계를 의미하는 것은 아니다.

 

'책 읽기 > 수학보다 데이터 문해력' 카테고리의 다른 글

29장 평균으로의 회귀  (0) 2024.02.02
28장 복권을 사면 살수록 손해본다  (0) 2024.01.31
27장 평균 인간  (0) 2024.01.30
26장 파레토의 법칙  (0) 2024.01.29
25장 중심극한정리  (0) 2024.01.25
TAGS.

Comments