불순도를 측정하는 기준으로 entropy를 사용했지만 gini 계수라는 것도 있습니다. 그 외에도 카이제곱 통계량이나 분산의 감소량같은 것도 사용하며 이에 따라 C4.5, CART, CHAID 등 다양한 decision tree 알고리즘이 있습니다. 지금까지 설명한 알고리즘은 ID3라는 기본적인 알고리즘이었습니다. gini 계수는 다음과 같이 정의합니다. 1−c∑i=1p2i=G(U) 이 식을 그림1을 예로 들어 설명하면 빨간색 데이터는 6개이고 파란색 데이터는 4개인데 p1=610,p2=410으로 G(U)=0.48 반면 entropy로 계산한 불순도는 H(U)=0.972
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.