Loading...
2024. 1. 16. 02:45

23장 편견도 데이터가 많으면 바뀐다

다시 동전 던지기 게임이 시작됐다. 동전을 10번 던져 그 결과를 보고 시연자가 앞면이 절반 나올 확률로 던지는 공평한 사람인지, 68% 확률로 던지는 캐나다 의사인지 맞춰보자. 이번에는 동전을 10번 던져 앞면이 무려 9번이 나왔다. 통계학자의 계산에 따르면 10번 던져 앞면이 9번 나왔을때, 시연자가 캐나다 의사일 확률은 91%, 공평한 사람일 확률은 9%라고 한다. 캐나다 의사일 확률이 높으므로 시연자는 캐나다 의사이다. 베이즈 추론의 결과이다. 이 확률값 91%는 어떻게 계산할까? 놀랍게도 가장 객관적일 것 같은 이 확률은 사실은 매우 주관적인 값이다. 다음은 게임을 시작하기 전 여러분이 할 법한 생각이다. 1) 시연자가 공평한 사람인지 의사인지 알 수 없으므로 캐나다 의사일 확률은 50% 2) ..

2024. 1. 4. 23:46

조건부확률과 베이즈정리 이론 간단하게

1. 조건부확률 P(A|B)는 사건 B가 일어난 상황에서 사건 A가 발생할 확률 P(A∩B)=P(B)P(A|B) 2. 조건부확률 시각화 민감도, 특이도, 정밀도,재현율, F1score를 구분함 그림의 정밀도가 정확도 귀무가설 H0 :음성, 대립가설 H1 :양성 실제로 걸리진 않았는데(귀무가설이 참) 걸렸다고 검진(귀무가설 기각)한 경우 False positive는 1종오류 실제로 걸렸는데(대립가설이 참) 검진하지 못한(대립가설 기각) 경우 False Negative는 2종오류 보통 정확도는 False Positive가 커질 경우 떨어진다(식만 봐도 알 수 있음) 보통 1종오류보다 2종오류가 심각하여, 1종오류를 조금 희생하더라도 2종오류를 줄이려고 한다 위에 1종,2종오류 의미만 보더라도 실제로 걸렸는데..

2022. 1. 30. 18:48

Naive bayes classifier의 개념과 핵심 아이디어

1. Naive bayes classifier bag of words로 얻은 sentence나 document를 특정 category로 분류하는 모델링중 가장 간단한 것이 naive bayes classifier d개의 문서(input)가 c개의 class에 분류될 수 있다면 특정한 문서 d는 어떤 클래스로 분류하는 것이 합리적인가? d가 주어질 때 모든 c에 대해 C=c의 조건부확률이 가장 높은 c에 분류하는 것이 합리적이다. 사후확률을 가장 높이는 maximum a posteriori 베이즈 정리를 이용하면 위 식은 아래와 같아진다. 그런데 주목할 점은 우리는 특정한 문서 d에 주목한다는 것이다. 특정한 문서 d가 뽑힐 확률 P(d)는 하나의 상수일 것이다. 상수 값은 최대화하는데 의미가 없으므로 P..