Loading...
2023. 12. 12. 01:44

9장 예측 불가능한 랜덤을 예측하는 방법

1. 예측 불가능한 랜덤 속에 존재하는 예측 가능성 유치원에 다니는 아들이 발표회를 한다고 했다. 그래서 물었다. "보통 엄마, 아빠가 몇 명이나 오시니?" 아들이 대답했다. "몰라" 다시 물었다. "왜 몰라? 몇 분이나 오셔?" 아들은 다시 대답했다. "그걸 어떻게 알아. 할 때마다 다른데. 랜덤이라고. 모르는게 당연하지." 핸드폰 게임과 유튜브에 익숙한 아이는 "랜덤"이란 단어를 정확히 알고있다. 아이 말에는 일리가 있다. 할 때마다 다를 수 밖에 없는 발표회 참석 인원을 정확하게 예측할 수는 없다. 그러나 유치원 선생님에게 여쭤보면 원하는 답을 얻을 수 있다. 부모와 가족 참석자는 대략 20~30명이라고 한다. 아이에게 랜덤은 예측 가능하지 않다. 그래서 아무 답도 줄 수 없다고 생각한다. 하지만 ..

2023. 7. 17. 02:57

데이터 해석학5 -오차와 확률분포-

1. 데이터의 변동 파악 측정 결과가 우연오차에 의해 변동이 생긴다고 하지만, 이 변동을 어떻게 다루어야할까? 몸무게의 참값이 50kg인 A가 몸무게를 10번 측정한 경우를 생각해보자. 편향은 무시하고, 우연오차만 결과에 영향을 미친다고 가정하자. 이 우연오차의 특징을 파악하기 위해 측정을 10000번 반복한다. 결과를 단순히 수직선 위에 그리면 보기 어렵기 때문에 히스토그램을 사용하여 표시 막대의 폭(구간)을 0.02kg으로 설정하고, 그 안에 들어간 데이터의 개수를 높이로 표시한다. 분할된 각 구간을 bin이라고 한다. 예를 들면, 측정된 값이 50.00~50.02kg의 범위에 포함된 횟수가 771번 처럼 전체를 세세하게 나눠서 세고 있다. 이 히스토그램은 산 모양을 나타내고 있는데, 이 측정을 계속..

2022. 11. 1. 23:18

머신러닝 관점에서 entropy 개념 알아보기

1. entropy를 줄이는 방법 무질서도를 측정하는 측도로 무작위할수록 높은 값을 갖는다. 색이 맞은 완전한 큐브는 단 1가지의 경우의 수(state)를 가지지만 색이 흐트러져 뒤섞인 큐브는 무수히 많은 경우의 수(state)를 가진다. 열역학 제 2법칙은 닫힌 공간에서 엔트로피는 항상 증가하는 방향으로 흐른다는 것이다. 시간이 과거에서 미래로 흐르는 것도 미래가 과거보다 무작위하다는 것을 생각하면 자연스럽다 그러나 공간에 에너지를 투입하는 경우 global하게 닫힌 공간으로 확장하면 엔트로피는 증가하지만 에너지를 투입한 local한 부분에서는 엔트로피를 감소시킬 수 있다 멋진 말로는 부분 공간에서는 시간을 잠깐 거슬러 올라갈 수 있다는것? 색이 흐트러져 뒤섞인 큐브는 무작위로 뒤섞여 엔트로피가 높은 ..

추정량의 오차는 왜 추정량의 표준편차일까?

참값 $S$의 추정량 $\hat{S}$이 아주 좋은 성질로 $E(\hat{S})=S$을 만족한다면 불편추정량(unbiased estimator)이라고 한다. 참값과 추정값 사이에는 분명한 차이가 있는데 이것을 오차(error)라고 한다. $$e={\hat{S}}-S$$ 많은 경우에 참값은 알 수 없는 값이니까 $e={\hat{S}}-S$를 구하는 것은 불가능하다. 사실 $\hat{S}$이 표본추출에 의해 랜덤하니까 $e={\hat{S}}-S$도 랜덤한 확률변수이므로 어느 정도 나오리라는 기댓값 정도는 구할 수 있다 오차 제곱의 기댓값 $E((\hat{(S} -S) ^{2} )$을 Mean square for error, 그 유명한 MSE이다. 이것을 최소로 하는 추정량 $\hat{S}$을 선택하는 것이 ..

2021. 12. 30. 20:52

무의식적인 통계학자의 법칙(Law Of The Unconscious Statistician)

연속형확률변수 $X$의 확률밀도함수가 $f(x)$일 때 연속형 확률변수 $X$의 기댓값은 \[E(X)=\int_{}^{}xf(x)dx\] 이산형 확률변수 $X$의 확률질량함수가 $P(X=x)$일 때 기댓값은 \[E(X)=\sum_{}^{}xP(X=x)\] 확률변수 $X$의 함수 $g(X)$도 하나의 확률변수이고 그러므로 기댓값이 존재하는데 다음과 같은 식이 성립한다 $X$가 연속형이면 \[E(g(X))=\int_{}^{}g(x)f(x)dx\] $X$가 이산형이면 \[E(g(X))=\sum_{}^{}g(x)P(X=x)\] 이것을 무의식적인 통계학자의 법칙(Law Of The Unconscious Statistician, LOTUS)이라고 부른다. $X$의 기댓값을 구할 때 $X$의 확률함수를 이용해서 구했..