상관관계는 인과관계가 아니다 - confounder model(교란변수 모델)

0. 개요 조건부확률은 두 변수간의 상관정도를 측정해주는 통계적 해석을 제공하지만 데이터가 충분히 많아지더라도 이것이 인과관계를 가진다고 추론할 수는 없다. 조건부확률에 기반한 모형은 보통 확률분포 변화에 민감하다 무슨말이냐면 훈련된 모형에서 정확도가 매우 높더라도 테스트 모형에서 분포(데이터)가 조금이라도 변하면 성능이 떨어질 수 있다. 인과관계에 기반한 예측모형은 테스트할 때 데이터의 변화에 강건하여 성능변화가 거의 없다 조건부확률은 교란변수(중첩요인,confounding factor)의 영향에 의해 높게 측정될 수 있다 예를 들어 키가 클 수록 지능지수가 큰 경향이 있는데 일반적으로는 무관하다는 것을 안다 데이터 분석하면 저런 경향이 나오는데 나이라는 변수의 영향이 있어서 그렇다. 두 변수에 동시에..