Loading...
2022. 1. 29. 02:32

데이터 시험 단골손님인 혼동행렬(confusion matrix) 민감도 특이도 완전정복

1. 혼동행렬 완성 ⓐ예측을 기준으로 예측의 P, N을 그대로 쓴 다음에 ⓑ예측 = 실제이면 T를 붙이고 예측 != 실제이면 F를 붙인다 2. 민감도 특이도 정밀도 재현율 실제를 기준으로 묶어서 민감도와 특이도 민감도 = 재현율 대칭방향으로 정밀도 민감도 = $\frac{TP}{TP+FN}$ = 재현율 특이도 = $\frac{TN}{FP+TN}$ 정밀도 = $\frac{TP}{TP+FP}$ 3. F1 score 재현율과 정밀도의 조화평균 조화평균이란? 역수의 산술평균의 역수 $$F1 = \frac{1}{\frac{\frac{1}{재현율} + \frac{1}{정밀도}}{2}} = \frac{2 \times 재현율 \times 정밀도}{재현율+정밀도}$$ 4. TPR, FPR??? 1에서 그린 혼동핼렬 표를..

2021. 12. 30. 20:52

무의식적인 통계학자의 법칙(Law Of The Unconscious Statistician)

연속형확률변수 $X$의 확률밀도함수가 $f(x)$일 때 연속형 확률변수 $X$의 기댓값은 \[E(X)=\int_{}^{}xf(x)dx\] 이산형 확률변수 $X$의 확률질량함수가 $P(X=x)$일 때 기댓값은 \[E(X)=\sum_{}^{}xP(X=x)\] 확률변수 $X$의 함수 $g(X)$도 하나의 확률변수이고 그러므로 기댓값이 존재하는데 다음과 같은 식이 성립한다 $X$가 연속형이면 \[E(g(X))=\int_{}^{}g(x)f(x)dx\] $X$가 이산형이면 \[E(g(X))=\sum_{}^{}g(x)P(X=x)\] 이것을 무의식적인 통계학자의 법칙(Law Of The Unconscious Statistician, LOTUS)이라고 부른다. $X$의 기댓값을 구할 때 $X$의 확률함수를 이용해서 구했..

2021. 12. 21. 00:18

몬테카를로(Monte-Carlo) 시뮬레이션에 대한 이론적인 설명

1. 목표 직사각형 안에 어떤 도형을 그려놓자. 빨간색 영역의 넓이는 얼마인지 알고 싶다. 2. 기본적인 원리 만약, 위와 같은 직사각형에서 임의의 난수를 하나 뽑는다고 하자. 그 난수가 빨간색 영역인 HIT에 들어갈 확률은 얼마인가? 직사각형의 넓이는 $c(b-a)$이고 빨간색 영역의 넓이를 $S$라고 하면, 기하학적 확률의 원리에 의해 $$p= \frac{(난수가 \; 목표로 \; 하는 \; 빨간색 \; 영역의 \; 넓이)}{(난수가 \; 있을 \; 수 \; 있는 \; 전체 \; 영역의 \; 넓이)} = \frac{S}{c(b-a)}$$ 그러나 $S$를 모른다는 것이 중요하다. 즉 우리는 p값도 알 수가 없다 그런데 $p$값을 다른 방법으로 추정해볼 수 있는데 위와 같은 직사각형 위에서 $N$개의 난..

경험분포함수(empirical distribution function)

우리가 가지고 있는 데이터 $x _{1},x _{2},...,x _{n}$는 어떠한 이상적인 확률분포를 따르는 확률변수 $X$의 관측값으로 생각할 수 있습니다. 그러나 이 확률변수 $X$의 100% 정확한 확률분포를 절대로 구할 수 없으며 그러한 확률분포를 추정하는 방법밖에 없습니다. 확률변수의 확률분포와 누적확률분포함수가 일대일대응한다는 것을 말씀드렸습니다. 만약 데이터 $x _{1},x _{2},...,x _{n}$를 가지고 확률변수 $X$의 누적확률분포함수를 추정할 수 있다면 데이터 $x _{1},x _{2},...,x _{n}$의 확률분포를 어느정도 알 수 있을 것입니다. 확률변수 $X$의 누적확률분포함수를 추정하는 가장 쉬운 방법으로 경험적 분포 함수인 empirical distribution ..

누적분포함수와 분위수(quantile)의 관계

quantile이라고 부르는 것은 잘 알려진 일반적인 정의?라고 한다면 $0