Loading...
2022. 2. 4. 21:52

naive bayes classifier의 문제점을 보완하는 Laplace smoothing

1. naive bayes classifier의 문제점 만약 test sentence d내에 존재하는 특정 단어 $w_{i}$가 train data에서 특정 class C=c내에 1번도 존재하지 않으면 $P(w_{i}|c)$는 0이므로 test의 sentence d는 다른 단어의 조건부확률과 무관하게 무조건 P(c|d)=0이다. 다른 단어는 다 존재하지만 단 하나의 단어만이라도 이런 경우가 발생하면 무조건 예측확률이 0이라는 사실이 굉장히 억울한 부분이다. 2. laplace smoothing 특정 class C=c에 test내 특정 단어 $w_{i}$가 속할 조건부확률을 laplace smoothing을 이용하여 구하면 그러니까 원래 구하는 식에 smoothing 상수 k를 더해준 것 상수 k는 확률에..

조건부독립의 성질

만약 $w_{1},w_{2},...w_{n}$이 $c$가 주어질 때 서로 조건부독립이라면 \[P(w _{1},w _{2},....,w _{n}|c)= \prod _{i=1} ^{n} P(w _{i} |c)\]이다? $n=2$라고 한다면 \[P(w _{1}|w _{2} ,c)=P(w _{1} |c)\]이므로 \[\frac{P(w _{1} ,w _{2} ,c)}{P(w _{2} ,c)}=\frac{P(w _{1} ,c)}{P(c)}\] 식을 정리하면 \[\frac{P(w _{1} ,w _{2} ,c)}{P(c)}= \frac{P(w _{1} ,c)}{P(c)}\frac{P(w _{2} ,c)}{P(c)}\] 그러므로 \[P(w _{1},w _{2}|c)=P(w _{1} |c)P(w _{2} |c)\] $n=..

2022. 1. 30. 18:48

Naive bayes classifier의 개념과 핵심 아이디어

1. Naive bayes classifier bag of words로 얻은 sentence나 document를 특정 category로 분류하는 모델링중 가장 간단한 것이 naive bayes classifier d개의 문서(input)가 c개의 class에 분류될 수 있다면 특정한 문서 d는 어떤 클래스로 분류하는 것이 합리적인가? d가 주어질 때 모든 c에 대해 C=c의 조건부확률이 가장 높은 c에 분류하는 것이 합리적이다. 사후확률을 가장 높이는 maximum a posteriori 베이즈 정리를 이용하면 위 식은 아래와 같아진다. 그런데 주목할 점은 우리는 특정한 문서 d에 주목한다는 것이다. 특정한 문서 d가 뽑힐 확률 P(d)는 하나의 상수일 것이다. 상수 값은 최대화하는데 의미가 없으므로 P..