decision tree의 불순도를 측정하는 기준
불순도를 측정하는 기준으로 entropy를 사용했지만 gini 계수라는 것도 있습니다.
그 외에도 카이제곱 통계량이나 분산의 감소량같은 것도 사용하며
이에 따라 C4.5, CART, CHAID 등 다양한 decision tree 알고리즘이 있습니다.
지금까지 설명한 알고리즘은 ID3라는 기본적인 알고리즘이었습니다.
gini 계수는 다음과 같이 정의합니다.
$$1- \sum _{i=1} ^{c} p _{i}^{2} =G(U)$$
이 식을 그림1을 예로 들어 설명하면 빨간색 데이터는 6개이고 파란색 데이터는 4개인데
$p _{1} = \frac{6}{10} ,p _{2} = \frac{4}{10}$으로 $G(U)=0.48$
반면 entropy로 계산한 불순도는 $H(U)=0.972$
'정형데이터' 카테고리의 다른 글
회귀문제에서 사용하는 decision tree (0) | 2021.12.15 |
---|---|
연속형 변수를 사용한 decision tree (0) | 2021.12.14 |
decision tree의 가지치기(pruning) (0) | 2021.12.13 |
예시를 통해 이해하는 decision tree가 생성되는 원리 (0) | 2021.12.11 |
분위수 변환(quantile transformation) (0) | 2021.12.09 |
TAGS.