boston data에서 임의로 15~25% 결측치를 생성했음 1. pattern을 통한 결측치 처리 결측치의 pattern을 대략적으로 파악하면 어떤 식으로 처리할지 감이 올 수 있음 x축을 개별 변수, y축을 변수의 value로 하고 heatmap을 그림 전체 dataset의 x축을 feature, y축을 feature의 value라고 하여 pattern을 그려보면 왼쪽과 같이 random하게 결측치가 있을 수 있고 오른쪽 처럼 어떤 규칙을 보일수도 있음 위와 같이 boston dataset의 pattern을 그려보니 결측치가 random하게 분포하는 것 같음 random하게 15~25% 결측치를 만들었으니까 가상으로 만든 dataset의 pattern이 위와 같다면 결측치가 어떤 규칙을 가지고 분포..
1. 예시 데이터 생성 import pandas as pd import numpy as np a = ['xdjwew1235453kdrew',75,np.nan,np.nan] b = ['jgierw0548323kgfe',54,36,89] c = ['hjeir3058372jdkw',23,85,np.nan] d = ['gjewoe02853klfw',98,94,92] e = ['guehrwenk29584034kgneiew',np.nan,np.nan,55] df = pd.DataFrame([a,b,c,d,e]) 여기서 소소한 팁으로 np.nan으로 NaN값을 넣을 수 있다 'NaN'이나 nan이나 NaN이나 이런거 안됨 2. 행의 값들을 가져오는 방법 df.values하면 데이터프레임의 행들을 numpy array..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.