'다시보는 통계학' 카테고리의 글 목록 (2 Page)

$표본평균의 분산은 $\sigma ^{2}/n$이 아니다$

표본평균의 분산은 $\sigma ^{2}/n$ 이 아니다

1. 문제 주사위를 1번 던져서 나오는 눈은 1,2,3,4,5,6이고 각각은 1/6의 확률로 나온다. 모집단의 확률변수 X=1,2,3,4,5,6을 취할 수 있고 각각이 1/6의 확률을 가지므로 평균이 3.5이고 분산은 17.5/6이 된다. 크기가 6인 모집단에서 크기 2인 표본을 단순 임의 비복원추출할 때 가능한 표본은? (1,2), (1,3), (1,4), (1,5),...(5,6)으로 총 15개가 나온다. 이 15개의 표본에 대해 표본평균을 구하면 1.5, 2, 2.5, ...5.5가 나오고 이들의 평균이 '표본평균의 평균'으로 3.5가 나온다. 모평균과 표본평균의 평균은 동일하기 때문에 당연한 결과라고 생각할 수 있다. 표본평균의 분산은 (모분산)/n이므로 17.5/6/2 = 17.5/12가 나와야..

format_list_bulleted 다시보는 통계학
· 2022. 6. 9.
textsms

추정량의 오차는 왜 추정량의 표준편차일까?

참값 $S$ 의 추정량 $\hat{S}$ 이 아주 좋은 성질로 $E(\hat{S})=S$ 을 만족한다면 불편추정량(unbiased estimator)이라고 한다. 참값과 추정값 사이에는 분명한 차이가 있는데 이것을 오차(error)라고 한다. $e={\hat{S}}-S$ 많은 경우에 참값은 알 수 없는 값이니까 $e={\hat{S}}-S$ 를 구하는 것은 불가능하다. 사실 $\hat{S}$ 이 표본추출에 의해 랜덤하니까 $e={\hat{S}}-S$ 도 랜덤한 확률변수이므로 어느 정도 나오리라는 기댓값 정도는 구할 수 있다 오차 제곱의 기댓값 $E((\hat{(S} -S) ^{2} )$ 을 Mean square for error, 그 유명한 MSE이다. 이것을 최소로 하는 추정량 $\hat{S}$ 을 선택하는 것이 ..

format_list_bulleted 다시보는 통계학
· 2022. 6. 1.
textsms

피어슨 상관계수, 스피어만 상관계수, 켄달의 타우 완벽비교

1. 상관계수(correlation coefficient) 두 변수의 통계적 관계를 나타내는 상관관계의 정도를 수치로 나타낸 값 -1부터 1까지의 값을 가지며, 0인 경우는 상관관계가 없다고 말한다. 세가지 성질을 가지는 것이 좋다. 1)두 변수의 값이 완전한 부합이면 +1, 완전한 비부합이면 -1 2)두 변수가 서로 독립이면 0 3)두 변수에 대해 크기의 순서가 보존되는 변환을 수행해도 상관계수의 값은 변하지 않는다 수치를 확인하기 전에 산점도(scatter plot)를 먼저 그리고 수치적으로 파악하는 것이 기본 2. 피어슨 상관계수(pearson) 두 변수 X,Y의 선형적 관계(linear relationship)의 측도 선형적 관계가 강하다는 것은 선형모형에 의해 두 변수의 관계를 잘 모델링할 수 ..

format_list_bulleted 다시보는 통계학
· 2022. 5. 23.
textsms

재현율(recall)에 대해 정확히 알기

1. 문제제기 class간 불균형 데이터를 classification할 때 모델이 데이터가 많은 class(다수 class)에 분류하려는 경향이 있다는 것은 잘 알려진 사실 왜냐하면 class 1과 0이 97:3으로 나뉘어져있다고 해보자 모델이 전체 데이터를 예측할 때 전부 class 1로 예측하면 무려 97% 정확도를 얻는다 그러면 여기서 문제 데이터가 적은 소수 클래스의 민감도가 낮아지는가?? 2. 생각 소수 클래스의 민감도라는 것이 도대체 무슨 말이지? 내가 아는건 이런 혼동행렬에서 민감도는 실제 긍정인 것중에 모델이 긍정이라고 예측한 것의 비율 TP/(TP+FN) 특이도는 실제 부정인 것중에서 모델이 부정이라고 예측한 것의 비율 TN/(FP+TN) 정밀도는 모델이 긍정이라고 예측한 것중에서 실제 ..

format_list_bulleted 다시보는 통계학
· 2022. 4. 7.
textsms

표집분포(sampling distribution)와 표본분포(sample distribution)

1. 모집단이란?(population) 연구자가 관심있어하는 주제를 모두 나타낼 수 있는 개인이나 어떤 값의 전체 모임 대한민국 사람들의 평균키를 조사하고 싶을 때? 전체 대한민국 사람들이 모두 대상이 되는데 이것이 population distribution ----------------------------------------------------------------------------------------------------------- 모집단은 생각보다 미묘한 개념일 수 있다 어떤 표본을 추출할 수 있는 모집단에는 3가지 유형이 있다 1) 말 그대로의 모집단: 한 예로 여론조사에서 무작위로 한 명을 뽑는, 확인 가능한 집단이 있다. 관측 가능한 개인들로 구성된 집단도 여기에 해당한다. 실제로..

format_list_bulleted 다시보는 통계학
· 2022. 2. 21.
textsms

조건부독립의 성질

만약 $w_{1},w_{2},...w_{n}$ 이 $c$ 가 주어질 때 서로 조건부독립이라면 $P(w _{1},w _{2},....,w _{n}|c)= \prod _{i=1} ^{n} P(w _{i} |c)$ 이다? $n=2$ 라고 한다면 $P(w _{1}|w _{2} ,c)=P(w _{1} |c)$ 이므로 $\frac{P(w _{1} ,w _{2} ,c)}{P(w _{2} ,c)}=\frac{P(w _{1} ,c)}{P(c)}$ 식을 정리하면 $\frac{P(w _{1} ,w _{2} ,c)}{P(c)}= \frac{P(w _{1} ,c)}{P(c)}\frac{P(w _{2} ,c)}{P(c)}$ 그러므로 $P(w _{1},w _{2}|c)=P(w _{1} |c)P(w _{2} |c)$ $n=..

format_list_bulleted 다시보는 통계학
· 2022. 1. 30.
textsms

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

표본평균의 분산은 $\sigma ^{2}/n$ 이 아니다

추정량의 오차는 왜 추정량의 표준편차일까?

피어슨 상관계수, 스피어만 상관계수, 켄달의 타우 완벽비교

재현율(recall)에 대해 정확히 알기

표집분포(sampling distribution)와 표본분포(sample distribution)

조건부독립의 성질

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

표본평균의 분산은 σ2/n\sigma ^{2}/n이 아니다

추정량의 오차는 왜 추정량의 표준편차일까?

피어슨 상관계수, 스피어만 상관계수, 켄달의 타우 완벽비교

재현율(recall)에 대해 정확히 알기

표집분포(sampling distribution)와 표본분포(sample distribution)

조건부독립의 성질

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

표본평균의 분산은 $\sigma ^{2}/n$ 이 아니다