회귀문제에서 사용하는 decision tree

분류 문제에만 사용하는 것처럼 보이지만 decision tree는 regression 문제에도 사용이 가능합니다. 불순도를 측정하는 기준으로 분산을 사용할 수 있습니다. 분산이라는 것이 연속형 데이터 같은 경우 분산이 크면 넓게 퍼져 있어 그만큼 불순하다? 불확실하다?라는 느낌을 받을 수 있다고 생각합니다. 분산의 감소량이 최대가 되는 feature를 선택하여 tree를 생성해나갑니다. 예를 들어서 다음과 같은 data set이 주어졌다고 합시다. 현재 상태에서 target의 표준편차는 얼마일까요? 계산하면 9.32가 나온다고 합니다. 이제 구분하고자하는 feature를 선택하는데 예를 들어 outlook을 먼저 선택합시다. outlook을 선택하면서 표준편차가 얼마나 감소하는지 계산하려면 outlook..