Loading...
2022. 6. 19. 19:55

연속형 변수를 전처리하는 방법은 무엇이 있고 왜 전처리를 해야하는가?

1. 데이터 전처리란? 머신러닝 모델에 데이터를 입력할 수 있도록 적절하게 처리하는 과정 EDA를 위해 데이터 구조를 바꿔서 처리하는 것도 하나의 전처리 과정 EDA 목적이나 모델에 입력데이터를 어떻게 넣어줄 것인가에 따라 달라진다 EDA에서 어떤 부분을 찾고싶은가에 따라서도 달라짐 선형모델이냐 트리모델이냐 딥러닝모델이냐에 따라서도 달라짐 데이터 전처리도 정답이 없지만 어느정도 기본은 있다 머신러닝 모델에 데이터를 입력하기 위한 과정이라는 것을 염두에 두고 연속형, 범주형을 처리 & 결측치 처리 & 이상치 처리 2. 예시로 이해하는 연속형 변수 전처리 sklearn에 있는 boston data 506개의 데이터 포인트, 13개의 변수 CHAS만 범주형이고 나머지는 연속형 target은 집값의 중위수라는데..

2022. 5. 26. 02:22

범주형 변수를 전처리하는 방법의 모든 것

1. introduction 범주형 변수는 일종의 category를 가진다. 식물의 종이나 자동차 종류나 연속형보다 주의해서 다뤄야 할 수도 있음 보통 문자열로 나타나는데 머신러닝에 입력하기 어려워서 수치형으로 변환해줘야 한다. 2. one hot encoding 해당 변수의 값이 어떤 category에 속하면 1, 아니면 0으로 두는 방법 '그냥 0 아니면 1' 이런게 아니라.. '해당 변수의 VALUE가 어떤 category에 속한다면 1, 그렇지 않으면 0' 위의 그림에서 id 1은 개에 속하므로 개에 1을 주고 고양이에 0을 주어 (1,0)으로 encoding하고 id 2는 고양이에 속하므로 개에 0을 주고 고양이에 1을 주어 (0,1)로 encoding한다 특히 개와 고양이 모두에 속하는 id ..

2021. 12. 14. 23:41

연속형 변수를 사용한 decision tree

보통 범주형 변수만 사용가능한 것처럼 decision tree를 설명하지만 decision tree의 구분 feature로 연속형 변수도 사용가능합니다. 방법은 여러 가지가 있는데 하나를 예로 들어 설명하자면 예시 데이터가 위와 같다고 합시다. 구분하고자하는 feature 여기서는 예를 들어 income을 정렬합니다. 그러면 label이 바뀌는 지점이 생기는데 label이 바뀌는 지점의 평균점을 기준값으로 잡습니다. 각각 59.7, 64.9, 84.9 세 지점이 생기는데 각 지점에서 information gain이 최대가 되는 기준지점을 찾습니다. gini 계수를 이용해 계산하면 income이 59.7보다 클때와 작을때로 구분하는 것이 최대라고 합니다. lotsize도 똑같은 방식으로 기준값을 잡고 각 ..