Loading...
2022. 6. 24. 21:04

정형데이터에서 결측치를 처리하는 방법

boston data에서 임의로 15~25% 결측치를 생성했음 1. pattern을 통한 결측치 처리 결측치의 pattern을 대략적으로 파악하면 어떤 식으로 처리할지 감이 올 수 있음 x축을 개별 변수, y축을 변수의 value로 하고 heatmap을 그림 전체 dataset의 x축을 feature, y축을 feature의 value라고 하여 pattern을 그려보면 왼쪽과 같이 random하게 결측치가 있을 수 있고 오른쪽 처럼 어떤 규칙을 보일수도 있음 위와 같이 boston dataset의 pattern을 그려보니 결측치가 random하게 분포하는 것 같음 random하게 15~25% 결측치를 만들었으니까 가상으로 만든 dataset의 pattern이 위와 같다면 결측치가 어떤 규칙을 가지고 분포..

2022. 3. 25. 02:38

데이터프레임에서 행별로 이상치 판단하기 (코딩테스트 복기)

1. 예시 데이터 생성 import pandas as pd import numpy as np a = ['xdjwew1235453kdrew',75,np.nan,np.nan] b = ['jgierw0548323kgfe',54,36,89] c = ['hjeir3058372jdkw',23,85,np.nan] d = ['gjewoe02853klfw',98,94,92] e = ['guehrwenk29584034kgneiew',np.nan,np.nan,55] df = pd.DataFrame([a,b,c,d,e]) 여기서 소소한 팁으로 np.nan으로 NaN값을 넣을 수 있다 'NaN'이나 nan이나 NaN이나 이런거 안됨 2. 행의 값들을 가져오는 방법 df.values하면 데이터프레임의 행들을 numpy array..