Loading...
2023. 7. 11. 03:08

데이터 해석학2 -측정은 왜 어려운가?-

1. 필요한 데이터가 전부 수집되는 것은 당연하지 않다. 최근에 다양한 것들이 디지털화되어 날마다 많은 양의 데이터가 생성되고 있다. 그래서 모든 것을 간단히 데이터로 수집할 수 있다는 착각에 빠지기 쉽지만, 오히려 관측하기 쉬운 데이터는 방대하게 생성되지만, 관측하기 어려운 데이터는 여전히 손에 넣기 어렵다. 따라서 효율적으로 의사결정이나 데이터 해석을 할 수 있도록 데이터 수집의 수준을 가능한한 높이는 것이 중요하다. 2. 추상적인 것을 측정해야할때 측정하고 싶은 것이 '인구'와 같이 이견의 여지가 없는 것이라면 아주 쉽지만, '신제품의 호감도', '사람의 지적능력'같이 조금이라도 추상적인 개념이 들어간다면 어떨까? 이렇게 수치화되어 있지 않은 것을 데이터화하려고 할 때는, '측정 가능한 것'으로 대..

확률론 - 5000!개의 거리의 합의 평균을 구하는 방법

1. 문제 28139번: 평균 구하기 (acmicpc.net) 28139번: 평균 구하기 $2$차원 좌표평면 위에 $N$명의 사람이 있다. 위치가 ($x_1, y_1$)인 사람과 위치가 ($x_2, y_2$)인 사람 간의 거리는 $\sqrt{\left(x_1 - x_2 \right)^2 + \left(y_1 - y_2 \right)^ 2}$이다. 위대한 마법사 레이는 이 중 한 www.acmicpc.net 2. 풀이 최악의 경우 5000!가지를 모두 거리를 계산해봐서 평균을 구해야하는데, 당연히 2.5초안에 가능할리는 없고 5000!가지를 안구해봐도 구하는 방법이 있겠지 확률변수 $X$를 $N!$가지 각각 경우의 수에서 나올 수 있는 이동거리라고 정의하자. 문제에도 나와있듯이 "총이동거리는 해당 순서에서..

2022. 9. 5. 02:05

이상치 탐지를 위한 기본적인 isolation forest 알고리즘

1. 비지도학습을 이용한 이상치 탐지(anomaly detection) 1-1) mahalanobis 거리를 이용한 outlier 탐지 1-2) k-means를 이용한 군집화 1-3) DBSCAN 1-4) isolation forest 2. isolation forest isolation을 이용하여 이상치를 탐지하는 알고리즘이다. isolation은 데이터의 나머지보다 특정 데이터 포인트가 얼마나 멀리 떨어져있는지를 나타내는 것이다. 기본적으로 이상치는 다른 정상데이터보다 분리시키기 쉽다는 성질을 이용한다 decision tree의 재귀 이진 분할을 활용하여 랜덤하게 변수를 선택하고, 이를 이용해 모든 데이터를 재귀 이진분할 시킨다. 이상치가 분할하기 쉬우므로 상대적으로 root node에 가까운 곳에 ..

Wilcoxon rank sum test(Mann–Whitney U test)는 등분산성을 가정하고 있다

1. 문제 two sample t-test에서 정규성을 가정할 수 없을 경우 Wilcoxon rank sum test를 사용하는데 그냥 사용해도 될까? Wilcoxon rank sum test의 기본 가정은 '두 집단에서 나온 모든 관측치들이 서로 독립이다' '귀무가설 하에 두 집단의 분포는 서로 동일하다' 그러므로 두 집단의 분산이 동일하지 않다는 것은 분포가 서로 동일하지 않다는 것으로 기본 가정을 위배하게 된다 이런 가정을 위배한 경우는 특히, 등분산이 아니고 sample size가 다른 경우, 제1종오류를 상당히 증가시킨다고 알려져있다. 2. 등분산이 아니라면? 어떻게 해야할까 '두 분포가 동일하지 않은데, 두 집단의 분포차이, 확률적 순서(평균차이, 중앙값차이 등)를 검정하고싶은 경우 더 나은 ..

2022. 6. 9. 04:36

표본평균의 분산은 $\sigma ^{2}/n$이 아니다

1. 문제 주사위를 1번 던져서 나오는 눈은 1,2,3,4,5,6이고 각각은 1/6의 확률로 나온다. 모집단의 확률변수 X=1,2,3,4,5,6을 취할 수 있고 각각이 1/6의 확률을 가지므로 평균이 3.5이고 분산은 17.5/6이 된다. 크기가 6인 모집단에서 크기 2인 표본을 단순 임의 비복원추출할 때 가능한 표본은? (1,2), (1,3), (1,4), (1,5),...(5,6)으로 총 15개가 나온다. 이 15개의 표본에 대해 표본평균을 구하면 1.5, 2, 2.5, ...5.5가 나오고 이들의 평균이 '표본평균의 평균'으로 3.5가 나온다. 모평균과 표본평균의 평균은 동일하기 때문에 당연한 결과라고 생각할 수 있다. 표본평균의 분산은 (모분산)/n이므로 17.5/6/2 = 17.5/12가 나와야..

추정량의 오차는 왜 추정량의 표준편차일까?

참값 $S$의 추정량 $\hat{S}$이 아주 좋은 성질로 $E(\hat{S})=S$을 만족한다면 불편추정량(unbiased estimator)이라고 한다. 참값과 추정값 사이에는 분명한 차이가 있는데 이것을 오차(error)라고 한다. $$e={\hat{S}}-S$$ 많은 경우에 참값은 알 수 없는 값이니까 $e={\hat{S}}-S$를 구하는 것은 불가능하다. 사실 $\hat{S}$이 표본추출에 의해 랜덤하니까 $e={\hat{S}}-S$도 랜덤한 확률변수이므로 어느 정도 나오리라는 기댓값 정도는 구할 수 있다 오차 제곱의 기댓값 $E((\hat{(S} -S) ^{2} )$을 Mean square for error, 그 유명한 MSE이다. 이것을 최소로 하는 추정량 $\hat{S}$을 선택하는 것이 ..