Loading...

조건부독립의 성질

만약 $w_{1},w_{2},...w_{n}$이 $c$가 주어질 때 서로 조건부독립이라면 \[P(w _{1},w _{2},....,w _{n}|c)= \prod _{i=1} ^{n} P(w _{i} |c)\]이다? $n=2$라고 한다면 \[P(w _{1}|w _{2} ,c)=P(w _{1} |c)\]이므로 \[\frac{P(w _{1} ,w _{2} ,c)}{P(w _{2} ,c)}=\frac{P(w _{1} ,c)}{P(c)}\] 식을 정리하면 \[\frac{P(w _{1} ,w _{2} ,c)}{P(c)}= \frac{P(w _{1} ,c)}{P(c)}\frac{P(w _{2} ,c)}{P(c)}\] 그러므로 \[P(w _{1},w _{2}|c)=P(w _{1} |c)P(w _{2} |c)\] $n=..

2022. 1. 30. 18:48

Naive bayes classifier의 개념과 핵심 아이디어

1. Naive bayes classifier bag of words로 얻은 sentence나 document를 특정 category로 분류하는 모델링중 가장 간단한 것이 naive bayes classifier d개의 문서(input)가 c개의 class에 분류될 수 있다면 특정한 문서 d는 어떤 클래스로 분류하는 것이 합리적인가? d가 주어질 때 모든 c에 대해 C=c의 조건부확률이 가장 높은 c에 분류하는 것이 합리적이다. 사후확률을 가장 높이는 maximum a posteriori 베이즈 정리를 이용하면 위 식은 아래와 같아진다. 그런데 주목할 점은 우리는 특정한 문서 d에 주목한다는 것이다. 특정한 문서 d가 뽑힐 확률 P(d)는 하나의 상수일 것이다. 상수 값은 최대화하는데 의미가 없으므로 P..