Loading [MathJax]/jax/output/CommonHTML/jax.js
 

decision tree의 불순도를 측정하는 기준

불순도를 측정하는 기준으로 entropy를 사용했지만 gini 계수라는 것도 있습니다.

 

그 외에도 카이제곱 통계량이나 분산의 감소량같은 것도 사용하며

 

이에 따라 C4.5, CART, CHAID 등 다양한 decision tree 알고리즘이 있습니다.

 

지금까지 설명한 알고리즘은 ID3라는 기본적인 알고리즘이었습니다.

 

gini 계수는 다음과 같이 정의합니다.

 

1ci=1p2i=G(U)

 

noname01.bmp
그림1. 예시 공간

 

이 식을 그림1을 예로 들어 설명하면 빨간색 데이터는 6개이고 파란색 데이터는 4개인데

 

p1=610,p2=410으로 G(U)=0.48

 

반면 entropy로 계산한 불순도는 $H(U)=0.972$

 

 

 

728x90