Loading...
2024. 4. 20. 00:24

상관관계는 인과관계가 아니다 - confounder model(교란변수 모델)

0. 개요 조건부확률은 두 변수간의 상관정도를 측정해주는 통계적 해석을 제공하지만 데이터가 충분히 많아지더라도 이것이 인과관계를 가진다고 추론할 수는 없다. 조건부확률에 기반한 모형은 보통 확률분포 변화에 민감하다 무슨말이냐면 훈련된 모형에서 정확도가 매우 높더라도 테스트 모형에서 분포(데이터)가 조금이라도 변하면 성능이 떨어질 수 있다. 인과관계에 기반한 예측모형은 테스트할 때 데이터의 변화에 강건하여 성능변화가 거의 없다 조건부확률은 교란변수(중첩요인,confounding factor)의 영향에 의해 높게 측정될 수 있다 예를 들어 키가 클 수록 지능지수가 큰 경향이 있는데 일반적으로는 무관하다는 것을 안다 데이터 분석하면 저런 경향이 나오는데 나이라는 변수의 영향이 있어서 그렇다. 두 변수에 동시에..

2024. 2. 9. 02:30

30장 두 변수가 관계가 없다

1. 통계학의 목적 통계학의 가장 큰 목적은 미지수를 추측하는 일이다. 문제의 종류에 따라 추측 대신 추정, 예측, 가설검정 등의 용어가 쓰이지만 결국에는 모두 미지의 값을 추측한다고 볼 수 있다. 추측을 잘하려면 먼저 이 미지의 값에 영향을 주는 요인을 알아야한다. 이와 더불어 바로 이 요인과 추측하고자 하는 대상의 관계를 알아야 한다. 변수 간의 관계를 파악하는 것이 통계학의 핵심이다. 명문대학에 지원할 때 부모가 영향력 있는 사람인 것이 결과에 영향을 미칠까? 어느 명문대학에 지원하는 A는 이렇게 생각할 수 있다. "내 부모가 평범한 회사원이어서 나는 합격할 수 없어" 이 문제에서는 두 변수가 있다. 여기서 변수란 변할 수 있는 값이란 뜻이며 꼭 숫자가 아니어도 괜찮다. 첫번째 변수는 예측 대상인 ..

2022. 6. 24. 21:04

정형데이터에서 결측치를 처리하는 방법

boston data에서 임의로 15~25% 결측치를 생성했음 1. pattern을 통한 결측치 처리 결측치의 pattern을 대략적으로 파악하면 어떤 식으로 처리할지 감이 올 수 있음 x축을 개별 변수, y축을 변수의 value로 하고 heatmap을 그림 전체 dataset의 x축을 feature, y축을 feature의 value라고 하여 pattern을 그려보면 왼쪽과 같이 random하게 결측치가 있을 수 있고 오른쪽 처럼 어떤 규칙을 보일수도 있음 위와 같이 boston dataset의 pattern을 그려보니 결측치가 random하게 분포하는 것 같음 random하게 15~25% 결측치를 만들었으니까 가상으로 만든 dataset의 pattern이 위와 같다면 결측치가 어떤 규칙을 가지고 분포..