Loading...

회귀문제에서 사용하는 decision tree

분류 문제에만 사용하는 것처럼 보이지만 decision tree는 regression 문제에도 사용이 가능합니다. 불순도를 측정하는 기준으로 분산을 사용할 수 있습니다. 분산이라는 것이 연속형 데이터 같은 경우 분산이 크면 넓게 퍼져 있어 그만큼 불순하다? 불확실하다?라는 느낌을 받을 수 있다고 생각합니다. 분산의 감소량이 최대가 되는 feature를 선택하여 tree를 생성해나갑니다. 예를 들어서 다음과 같은 data set이 주어졌다고 합시다. 현재 상태에서 target의 표준편차는 얼마일까요? 계산하면 9.32가 나온다고 합니다. 이제 구분하고자하는 feature를 선택하는데 예를 들어 outlook을 먼저 선택합시다. outlook을 선택하면서 표준편차가 얼마나 감소하는지 계산하려면 outlook..

2021. 11. 29. 20:57

Numpy 기초 4편

1. operation 기본적인 수학연산 지원 sum,mean,median,var,std 등등 지원 median 지원이 인상적 np.exp(), np.sqrt(), … 등 지수함수와 제곱근도 지원 표준편차는 std()로 구할 수 있고 median같은 경우는 a.median()이 아니라 np.median(a) 식으로 구해야 에러가 안나는듯 2. axis 연산 실행에서 기준이 되는 축 ndarray의 shape가 (a,b,c,d,e,.....)이면 a는 axis=0 b는 axis=1 c는 axis=2, d는 axis=3, e는 axis=4,..... 그림2에서 (3,4) array의 원소 합 sum()을 구한건데 axis=1이 shape에서 4를 나타내니까 원소 4개 있는 방향으로 sum을 함 그림3에서 (..