Loading...
2024. 4. 20. 00:24

상관관계는 인과관계가 아니다 - confounder model(교란변수 모델)

0. 개요 조건부확률은 두 변수간의 상관정도를 측정해주는 통계적 해석을 제공하지만 데이터가 충분히 많아지더라도 이것이 인과관계를 가진다고 추론할 수는 없다. 조건부확률에 기반한 모형은 보통 확률분포 변화에 민감하다 무슨말이냐면 훈련된 모형에서 정확도가 매우 높더라도 테스트 모형에서 분포(데이터)가 조금이라도 변하면 성능이 떨어질 수 있다. 인과관계에 기반한 예측모형은 테스트할 때 데이터의 변화에 강건하여 성능변화가 거의 없다 조건부확률은 교란변수(중첩요인,confounding factor)의 영향에 의해 높게 측정될 수 있다 예를 들어 키가 클 수록 지능지수가 큰 경향이 있는데 일반적으로는 무관하다는 것을 안다 데이터 분석하면 저런 경향이 나오는데 나이라는 변수의 영향이 있어서 그렇다. 두 변수에 동시에..

2024. 2. 9. 02:30

30장 두 변수가 관계가 없다

1. 통계학의 목적 통계학의 가장 큰 목적은 미지수를 추측하는 일이다. 문제의 종류에 따라 추측 대신 추정, 예측, 가설검정 등의 용어가 쓰이지만 결국에는 모두 미지의 값을 추측한다고 볼 수 있다. 추측을 잘하려면 먼저 이 미지의 값에 영향을 주는 요인을 알아야한다. 이와 더불어 바로 이 요인과 추측하고자 하는 대상의 관계를 알아야 한다. 변수 간의 관계를 파악하는 것이 통계학의 핵심이다. 명문대학에 지원할 때 부모가 영향력 있는 사람인 것이 결과에 영향을 미칠까? 어느 명문대학에 지원하는 A는 이렇게 생각할 수 있다. "내 부모가 평범한 회사원이어서 나는 합격할 수 없어" 이 문제에서는 두 변수가 있다. 여기서 변수란 변할 수 있는 값이란 뜻이며 꼭 숫자가 아니어도 괜찮다. 첫번째 변수는 예측 대상인 ..

2024. 1. 4. 23:46

조건부확률과 베이즈정리 이론 간단하게

1. 조건부확률 P(A|B)는 사건 B가 일어난 상황에서 사건 A가 발생할 확률 P(A∩B)=P(B)P(A|B) 2. 조건부확률 시각화 민감도, 특이도, 정밀도,재현율, F1score를 구분함 그림의 정밀도가 정확도 귀무가설 H0 :음성, 대립가설 H1 :양성 실제로 걸리진 않았는데(귀무가설이 참) 걸렸다고 검진(귀무가설 기각)한 경우 False positive는 1종오류 실제로 걸렸는데(대립가설이 참) 검진하지 못한(대립가설 기각) 경우 False Negative는 2종오류 보통 정확도는 False Positive가 커질 경우 떨어진다(식만 봐도 알 수 있음) 보통 1종오류보다 2종오류가 심각하여, 1종오류를 조금 희생하더라도 2종오류를 줄이려고 한다 위에 1종,2종오류 의미만 보더라도 실제로 걸렸는데..

2022. 6. 2. 00:46

확률분포&연속형분포의 이산화&조건부분포&기댓값으로 구하는 통계량

1. 확률분포 $x \times y$라는 데이터 공간에서 D는 데이터를 만들어내는 하나의 확률분포이다. 이로부터 얻어낸 데이터는 하나의 확률변수로 $(x,y) \sim D$이다. 확률분포에 따라 데이터의 이산형, 연속형이 결정된다. 데이터 상태가 실수이냐 정수이냐랑은 크게 무관하다. 확률분포는 이론적으로 존재하며 단순히 데이터만 보고는 무슨 확률분포를 따르는지는 알 수 없다. -------------------------------------- 확률질량함수는 이산형확률변수의 확률함수로 그 값 자체가 확률이다. 확률변수가 공간 A에서 가질 수 있는 모든 경우의 수를 고려한 확률의 합으로 구해진다. ------------------------------------- 확률밀도함수는 연속형확률변수의 확률함수지만..

2022. 4. 17. 08:26

greedy decoding(greedy search)은 왜 최적이 아닐까?

1. greedy decoding 일반적으로 행하던 decoding 방법이다. 매 time step마다 계산된 확률분포중 가장 확률이 높은 단어를 하나씩 선택한다. sequence 전체적으로 보는것보다 당장 현재 step에서 가장 확률이 높은 최적 단어를 뽑고자 하는 것이다. 순간순간에는 최적이지만 전체로 볼때는 최적이 아니라는 greedy algorithm에서 따온거겠지? 정답은 he hit me with a pie인데 he, he hit 생성하고 다음 단어 생성하는데 최적인 단어는 a라고 생각한거지.. 그러면 이제 이 순간 다음부터는 뭐가 나오든 최종 결과는 무조건 잘못된거임 2. 이상적인 번역이란 이상적으로 input sequence x가 주어질 때 그것에 대한 번역인 translation y를 찾..

2022. 2. 11. 21:10

sequence 데이터를 모델링하는 방법

1. sequence data 사건의 발생 순서에 따라 순차적으로 들어오는 데이터 말소리, 문자열, 주가, 비디오, 시계열, 동작(motion) 데이터 독립이고 서로 동등한 분포를 따르지 않는다(iid가 아니다.) 데이터의 순서를 바꾸면 확률분포가 바뀐다. 과거의 정보나 앞뒤의 맥락을 이용하지 않으면 미래를 예측하는 것이 어렵다. 순서에 관한 정보를 어떻게 반영해야할지 어려워 다루기 어려운 데이터이다. 심지어 입력의 차원이 어디까지 될지를 모른다. 바꿔말하면 sequence data를 다룬 모델은 입력의 차원이 다르더라도 동작할 수 있는 모델이어야한다. 2. 조건부확률을 이용한 모델링 sequence data는 이전에 발생한 정보를 이용하므로 이전 사건이 발생했다는 가정하에 현재 데이터가 발생할 확률을 ..