1. 이상치란? 데이터 중 일반적인 데이터와 크게 다른 데이터를 의미함 모델 성능에 큰 영향을 줄 수 있어 조심히 접근해야함 위의 왼쪽에는 상관관계가 0.95로 계산되는데 이상해보이는 3개 제거하고 나니 실제로는 랜덤하게 흩뿌려진 데이터 분포를 나타냄 아래의 그림에서 왼쪽을 보면 깔끔하게 상관관계를 보이는 데이터 분포 그런데 이상한 데이터가 추가되고나니 오른쪽처럼 상관관계가 약간 더러워짐? 2. Z score Z score로 이상치를 탐지할 수 있는데 관측치 X에 대해 이들의 평균이 μ, 표준편차가 σ이면 특정 i번째 관측치 Xi의 Z score란 Zi=Xi−μσ로 구해지고 이것은 N(0,1)을 따른다. 정규분포의 특징..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.