decision tree의 불순도를 측정하는 기준

불순도를 측정하는 기준으로 entropy를 사용했지만 gini 계수라는 것도 있습니다.

 

그 외에도 카이제곱 통계량이나 분산의 감소량같은 것도 사용하며

 

이에 따라 C4.5, CART, CHAID 등 다양한 decision tree 알고리즘이 있습니다.

 

지금까지 설명한 알고리즘은 ID3라는 기본적인 알고리즘이었습니다.

 

gini 계수는 다음과 같이 정의합니다.

 

$$1- \sum _{i=1} ^{c} p _{i}^{2} =G(U)$$

 

그림1. 예시 공간

 

이 식을 그림1을 예로 들어 설명하면 빨간색 데이터는 6개이고 파란색 데이터는 4개인데

 

$p _{1} = \frac{6}{10} ,p _{2} = \frac{4}{10}$으로 $G(U)=0.48$

 

반면 entropy로 계산한 불순도는 $H(U)=0.972$

 

 

 

TAGS.

Comments