Loading...
2024. 4. 20. 00:24

상관관계는 인과관계가 아니다 - confounder model(교란변수 모델)

0. 개요 조건부확률은 두 변수간의 상관정도를 측정해주는 통계적 해석을 제공하지만 데이터가 충분히 많아지더라도 이것이 인과관계를 가진다고 추론할 수는 없다. 조건부확률에 기반한 모형은 보통 확률분포 변화에 민감하다 무슨말이냐면 훈련된 모형에서 정확도가 매우 높더라도 테스트 모형에서 분포(데이터)가 조금이라도 변하면 성능이 떨어질 수 있다. 인과관계에 기반한 예측모형은 테스트할 때 데이터의 변화에 강건하여 성능변화가 거의 없다 조건부확률은 교란변수(중첩요인,confounding factor)의 영향에 의해 높게 측정될 수 있다 예를 들어 키가 클 수록 지능지수가 큰 경향이 있는데 일반적으로는 무관하다는 것을 안다 데이터 분석하면 저런 경향이 나오는데 나이라는 변수의 영향이 있어서 그렇다. 두 변수에 동시에..

2024. 1. 4. 23:46

조건부확률과 베이즈정리 이론 간단하게

1. 조건부확률 P(A|B)는 사건 B가 일어난 상황에서 사건 A가 발생할 확률 P(A∩B)=P(B)P(A|B) 2. 조건부확률 시각화 민감도, 특이도, 정밀도,재현율, F1score를 구분함 그림의 정밀도가 정확도 귀무가설 H0 :음성, 대립가설 H1 :양성 실제로 걸리진 않았는데(귀무가설이 참) 걸렸다고 검진(귀무가설 기각)한 경우 False positive는 1종오류 실제로 걸렸는데(대립가설이 참) 검진하지 못한(대립가설 기각) 경우 False Negative는 2종오류 보통 정확도는 False Positive가 커질 경우 떨어진다(식만 봐도 알 수 있음) 보통 1종오류보다 2종오류가 심각하여, 1종오류를 조금 희생하더라도 2종오류를 줄이려고 한다 위에 1종,2종오류 의미만 보더라도 실제로 걸렸는데..

2024. 1. 3. 23:19

통계적 모델링과 최대가능도추정법(Maximum likelihood estimation) 간단하게

1. 통계적 모델링 적절한 가정 위에서 확률분포를 추정하는 것 유한한 개수의 데이터만 보고 정확한 모집단의 분포를 아는 것은 불가능하므로 근사적으로 추정함 예측모형의 목표는 분포를 정확하게 맞추는것보다 데이터와 추정방법의 불확실성을 고려하여 위험을 최소화하는 것이다. 데이터가 특정 확률분포를 따른다고 선험적으로 가정하고 분포를 결정하는 방법론은 모수적 방법론 특정 확률분포를 가정하지 않고 데이터에 따라 모델의 구조 및 모수의 개수가 유연하게 바뀌면 비모수적 방법론 비모수적 방법론은 모수를 안쓴다는 것이 아니라 특별한 확률분포를 가정하지 않는 것이다. 기계학습의 대부분은 비모수적 방법론이다. 확률분포는 어느정도 가이드라인이 있다고는 하는데 큰 의미는 없다.. 데이터를 생성한 원리나 전체적인 형태 등을 전부..

2022. 9. 5. 02:05

이상치 탐지를 위한 기본적인 isolation forest 알고리즘

1. 비지도학습을 이용한 이상치 탐지(anomaly detection) 1-1) mahalanobis 거리를 이용한 outlier 탐지 1-2) k-means를 이용한 군집화 1-3) DBSCAN 1-4) isolation forest 2. isolation forest isolation을 이용하여 이상치를 탐지하는 알고리즘이다. isolation은 데이터의 나머지보다 특정 데이터 포인트가 얼마나 멀리 떨어져있는지를 나타내는 것이다. 기본적으로 이상치는 다른 정상데이터보다 분리시키기 쉽다는 성질을 이용한다 decision tree의 재귀 이진 분할을 활용하여 랜덤하게 변수를 선택하고, 이를 이용해 모든 데이터를 재귀 이진분할 시킨다. 이상치가 분할하기 쉬우므로 상대적으로 root node에 가까운 곳에 ..

Wilcoxon rank sum test(Mann–Whitney U test)는 등분산성을 가정하고 있다

1. 문제 two sample t-test에서 정규성을 가정할 수 없을 경우 Wilcoxon rank sum test를 사용하는데 그냥 사용해도 될까? Wilcoxon rank sum test의 기본 가정은 '두 집단에서 나온 모든 관측치들이 서로 독립이다' '귀무가설 하에 두 집단의 분포는 서로 동일하다' 그러므로 두 집단의 분산이 동일하지 않다는 것은 분포가 서로 동일하지 않다는 것으로 기본 가정을 위배하게 된다 이런 가정을 위배한 경우는 특히, 등분산이 아니고 sample size가 다른 경우, 제1종오류를 상당히 증가시킨다고 알려져있다. 2. 등분산이 아니라면? 어떻게 해야할까 '두 분포가 동일하지 않은데, 두 집단의 분포차이, 확률적 순서(평균차이, 중앙값차이 등)를 검정하고싶은 경우 더 나은 ..

2022. 6. 9. 04:36

표본평균의 분산은 $\sigma ^{2}/n$이 아니다

1. 문제 주사위를 1번 던져서 나오는 눈은 1,2,3,4,5,6이고 각각은 1/6의 확률로 나온다. 모집단의 확률변수 X=1,2,3,4,5,6을 취할 수 있고 각각이 1/6의 확률을 가지므로 평균이 3.5이고 분산은 17.5/6이 된다. 크기가 6인 모집단에서 크기 2인 표본을 단순 임의 비복원추출할 때 가능한 표본은? (1,2), (1,3), (1,4), (1,5),...(5,6)으로 총 15개가 나온다. 이 15개의 표본에 대해 표본평균을 구하면 1.5, 2, 2.5, ...5.5가 나오고 이들의 평균이 '표본평균의 평균'으로 3.5가 나온다. 모평균과 표본평균의 평균은 동일하기 때문에 당연한 결과라고 생각할 수 있다. 표본평균의 분산은 (모분산)/n이므로 17.5/6/2 = 17.5/12가 나와야..