1. 확률 - 앞으로 벌어질 사건에 대한 믿음 확률은 인류의 역사만큼이나 오래된 도박과 함께 등장했다. 도박이란 그 결과를 미리 알 수 없는 행위에 따라 승부가 결정된다. 예를 들어 동전 던지기와 주사위 굴리기처럼 앞으로 벌어질 사건에 대한 가능성이나 우리의 믿음을 숫자로 표현한 것이 곧 확률이다. 어떤 사건이 벌어질 가능성이 클수록 100%에 가까운 확률이 생기고, 반대로 가능성이 작을수록 0%에 가까운 확률이 발생한다. 이를테면 정육면체 주사위를 굴려 1이 나올 가능성은 다른 5개의 숫자가 나올 가능성과 같다. 쉽게 말해 1부터 6까지 모든 숫자가 나올 가능성이 같으므로, 그 가능성을 수로 표현한 확률 역시 모두 같은 것이다. 따라서 주사위 굴리기의 결과가 1일 확률은 1/6으로 16.7%이다. 한국..
1. 필요한 데이터가 전부 수집되는 것은 당연하지 않다. 최근에 다양한 것들이 디지털화되어 날마다 많은 양의 데이터가 생성되고 있다. 그래서 모든 것을 간단히 데이터로 수집할 수 있다는 착각에 빠지기 쉽지만, 오히려 관측하기 쉬운 데이터는 방대하게 생성되지만, 관측하기 어려운 데이터는 여전히 손에 넣기 어렵다. 따라서 효율적으로 의사결정이나 데이터 해석을 할 수 있도록 데이터 수집의 수준을 가능한한 높이는 것이 중요하다. 2. 추상적인 것을 측정해야할때 측정하고 싶은 것이 '인구'와 같이 이견의 여지가 없는 것이라면 아주 쉽지만, '신제품의 호감도', '사람의 지적능력'같이 조금이라도 추상적인 개념이 들어간다면 어떨까? 이렇게 수치화되어 있지 않은 것을 데이터화하려고 할 때는, '측정 가능한 것'으로 대..
1. 문제 28139번: 평균 구하기 (acmicpc.net) 28139번: 평균 구하기 2차원 좌표평면 위에 N명의 사람이 있다. 위치가 (x1,y1)인 사람과 위치가 (x2,y2)인 사람 간의 거리는 √(x1−x2)2+(y1−y2)2이다. 위대한 마법사 레이는 이 중 한 www.acmicpc.net 2. 풀이 최악의 경우 5000!가지를 모두 거리를 계산해봐서 평균을 구해야하는데, 당연히 2.5초안에 가능할리는 없고 5000!가지를 안구해봐도 구하는 방법이 있겠지 확률변수 X를 N!가지 각각 경우의 수에서 나올 수 있는 이동거리라고 정의하자. 문제에도 나와있듯이 "총이동거리는 해당 순서에서..
1. 비지도학습을 이용한 이상치 탐지(anomaly detection) 1-1) mahalanobis 거리를 이용한 outlier 탐지 1-2) k-means를 이용한 군집화 1-3) DBSCAN 1-4) isolation forest 2. isolation forest isolation을 이용하여 이상치를 탐지하는 알고리즘이다. isolation은 데이터의 나머지보다 특정 데이터 포인트가 얼마나 멀리 떨어져있는지를 나타내는 것이다. 기본적으로 이상치는 다른 정상데이터보다 분리시키기 쉽다는 성질을 이용한다 decision tree의 재귀 이진 분할을 활용하여 랜덤하게 변수를 선택하고, 이를 이용해 모든 데이터를 재귀 이진분할 시킨다. 이상치가 분할하기 쉬우므로 상대적으로 root node에 가까운 곳에 ..
1. 문제 two sample t-test에서 정규성을 가정할 수 없을 경우 Wilcoxon rank sum test를 사용하는데 그냥 사용해도 될까? Wilcoxon rank sum test의 기본 가정은 '두 집단에서 나온 모든 관측치들이 서로 독립이다' '귀무가설 하에 두 집단의 분포는 서로 동일하다' 그러므로 두 집단의 분산이 동일하지 않다는 것은 분포가 서로 동일하지 않다는 것으로 기본 가정을 위배하게 된다 이런 가정을 위배한 경우는 특히, 등분산이 아니고 sample size가 다른 경우, 제1종오류를 상당히 증가시킨다고 알려져있다. 2. 등분산이 아니라면? 어떻게 해야할까 '두 분포가 동일하지 않은데, 두 집단의 분포차이, 확률적 순서(평균차이, 중앙값차이 등)를 검정하고싶은 경우 더 나은 ..
1. 문제 주사위를 1번 던져서 나오는 눈은 1,2,3,4,5,6이고 각각은 1/6의 확률로 나온다. 모집단의 확률변수 X=1,2,3,4,5,6을 취할 수 있고 각각이 1/6의 확률을 가지므로 평균이 3.5이고 분산은 17.5/6이 된다. 크기가 6인 모집단에서 크기 2인 표본을 단순 임의 비복원추출할 때 가능한 표본은? (1,2), (1,3), (1,4), (1,5),...(5,6)으로 총 15개가 나온다. 이 15개의 표본에 대해 표본평균을 구하면 1.5, 2, 2.5, ...5.5가 나오고 이들의 평균이 '표본평균의 평균'으로 3.5가 나온다. 모평균과 표본평균의 평균은 동일하기 때문에 당연한 결과라고 생각할 수 있다. 표본평균의 분산은 (모분산)/n이므로 17.5/6/2 = 17.5/12가 나와야..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.