Loading...
2023. 12. 31. 02:05

18장 평균과 중앙값의 차이

1. 서론 통계학은 과학의 한 분야이다. 그런데 통계학에는 물리학, 화학, 생명과학 등 다른 자연과학과 구분되는 특징이 있다. 바로 통계적 추론이다. 물리학적 추론, 생물학적 추론, 화학적 추론이라는 말은 없다. 그러나 통계적 추론이라는 말은 있다. 왜 그럴까? 물리학은 자연의 법칙을 설명한다. 물리학 이론이 맞는지 아닌지 판단하기 위해서는 자연이라는 심판자에 의존한다. 화학도 생명과학도 대기과학도 마찬가지이다. 그런데 통계학의 심판자는 누구일까? 데이터를 분석해 계산한 예측의 성공 여부가 심판자일까? 이것은 낚싯대와 물고기를 혼동한 대답이다. 분석의 결과가 물고기라면 그 물고기를 낚은 낚싯대가 통계학이다. 자연이라는 심판자가 없기에 통계학은 자신의 성과를 평가해줄 새로운 심판이 필요하다. 이 심판 과정..

2023. 12. 12. 01:44

9장 예측 불가능한 랜덤을 예측하는 방법

1. 예측 불가능한 랜덤 속에 존재하는 예측 가능성 유치원에 다니는 아들이 발표회를 한다고 했다. 그래서 물었다. "보통 엄마, 아빠가 몇 명이나 오시니?" 아들이 대답했다. "몰라" 다시 물었다. "왜 몰라? 몇 분이나 오셔?" 아들은 다시 대답했다. "그걸 어떻게 알아. 할 때마다 다른데. 랜덤이라고. 모르는게 당연하지." 핸드폰 게임과 유튜브에 익숙한 아이는 "랜덤"이란 단어를 정확히 알고있다. 아이 말에는 일리가 있다. 할 때마다 다를 수 밖에 없는 발표회 참석 인원을 정확하게 예측할 수는 없다. 그러나 유치원 선생님에게 여쭤보면 원하는 답을 얻을 수 있다. 부모와 가족 참석자는 대략 20~30명이라고 한다. 아이에게 랜덤은 예측 가능하지 않다. 그래서 아무 답도 줄 수 없다고 생각한다. 하지만 ..

2022. 6. 2. 00:46

확률분포&연속형분포의 이산화&조건부분포&기댓값으로 구하는 통계량

1. 확률분포 $x \times y$라는 데이터 공간에서 D는 데이터를 만들어내는 하나의 확률분포이다. 이로부터 얻어낸 데이터는 하나의 확률변수로 $(x,y) \sim D$이다. 확률분포에 따라 데이터의 이산형, 연속형이 결정된다. 데이터 상태가 실수이냐 정수이냐랑은 크게 무관하다. 확률분포는 이론적으로 존재하며 단순히 데이터만 보고는 무슨 확률분포를 따르는지는 알 수 없다. -------------------------------------- 확률질량함수는 이산형확률변수의 확률함수로 그 값 자체가 확률이다. 확률변수가 공간 A에서 가질 수 있는 모든 경우의 수를 고려한 확률의 합으로 구해진다. ------------------------------------- 확률밀도함수는 연속형확률변수의 확률함수지만..

추정량의 오차는 왜 추정량의 표준편차일까?

참값 $S$의 추정량 $\hat{S}$이 아주 좋은 성질로 $E(\hat{S})=S$을 만족한다면 불편추정량(unbiased estimator)이라고 한다. 참값과 추정값 사이에는 분명한 차이가 있는데 이것을 오차(error)라고 한다. $$e={\hat{S}}-S$$ 많은 경우에 참값은 알 수 없는 값이니까 $e={\hat{S}}-S$를 구하는 것은 불가능하다. 사실 $\hat{S}$이 표본추출에 의해 랜덤하니까 $e={\hat{S}}-S$도 랜덤한 확률변수이므로 어느 정도 나오리라는 기댓값 정도는 구할 수 있다 오차 제곱의 기댓값 $E((\hat{(S} -S) ^{2} )$을 Mean square for error, 그 유명한 MSE이다. 이것을 최소로 하는 추정량 $\hat{S}$을 선택하는 것이 ..

2022. 4. 7. 00:29

bias and variance trade off

1. variance variance는 출력의 일관성을 측정한다. 즉 입력값이 달라지더라도 출력이 얼마나 일관적인지 알아보는 값이다. variance가 작을수록 출력이 일관적이다. 보통 간단한 모형일 수록 low variance고 복잡한 모형일수록 high variance low variance일수록 좋은데 왜냐하면 bias만큼 모형을 shift시키면 true value를 정확히 예측하는 좋은 모형을 얻는다. 2. bias bias는 얼마나 평균적으로 true value에 몰려있는가를 측정한다. 착각하면 안되는 것이 단순히 얼마나 몰려있는가가 아니라 true value에 몰려있는가를 측정하는 것 true value에 몰려있을 수록 작다 bias와 variance를 둘 다 줄이는 것이 사실 베스트 3. ‘..

회귀문제에서 사용하는 decision tree

분류 문제에만 사용하는 것처럼 보이지만 decision tree는 regression 문제에도 사용이 가능합니다. 불순도를 측정하는 기준으로 분산을 사용할 수 있습니다. 분산이라는 것이 연속형 데이터 같은 경우 분산이 크면 넓게 퍼져 있어 그만큼 불순하다? 불확실하다?라는 느낌을 받을 수 있다고 생각합니다. 분산의 감소량이 최대가 되는 feature를 선택하여 tree를 생성해나갑니다. 예를 들어서 다음과 같은 data set이 주어졌다고 합시다. 현재 상태에서 target의 표준편차는 얼마일까요? 계산하면 9.32가 나온다고 합니다. 이제 구분하고자하는 feature를 선택하는데 예를 들어 outlook을 먼저 선택합시다. outlook을 선택하면서 표준편차가 얼마나 감소하는지 계산하려면 outlook..