Loading...
2023. 12. 12. 01:44

9장 예측 불가능한 랜덤을 예측하는 방법

1. 예측 불가능한 랜덤 속에 존재하는 예측 가능성 유치원에 다니는 아들이 발표회를 한다고 했다. 그래서 물었다. "보통 엄마, 아빠가 몇 명이나 오시니?" 아들이 대답했다. "몰라" 다시 물었다. "왜 몰라? 몇 분이나 오셔?" 아들은 다시 대답했다. "그걸 어떻게 알아. 할 때마다 다른데. 랜덤이라고. 모르는게 당연하지." 핸드폰 게임과 유튜브에 익숙한 아이는 "랜덤"이란 단어를 정확히 알고있다. 아이 말에는 일리가 있다. 할 때마다 다를 수 밖에 없는 발표회 참석 인원을 정확하게 예측할 수는 없다. 그러나 유치원 선생님에게 여쭤보면 원하는 답을 얻을 수 있다. 부모와 가족 참석자는 대략 20~30명이라고 한다. 아이에게 랜덤은 예측 가능하지 않다. 그래서 아무 답도 줄 수 없다고 생각한다. 하지만 ..

2023. 12. 11. 02:46

8장 프로이센 왕국의 기병대 말 뒷발차기 사망사건

1. 확률분포란 동전 던지기를 하면 앞면이 나올지 뒷면이 나올지 예측하기 어렵다. 앞면과 뒷면이 나올 가능성이 똑같아서 특별히 하나를 골라 맞히기 어렵다. 그렇다면 동전 던지기 결과에는 아무런 패턴이 없는 것일까? 아니다. 앞면이 나올 확률이 절반, 뒷면이 나올 확률이 절반이라는 패턴이 있다. 이처럼 그 결과가 예측 불가능하고 무작위성을 띠는 사건의 패턴을 확률로 기술한 것을 '확률분포'라고 한다. 정확히 어떤 값이 나올지는 알 수 없지만 확률분포를 이용하면 그 불확실성을 체계적으로 이해할 수 있다는 뜻이다. 2. 포아송분포 19세기 프로이센 왕국은 그 당시 유럽의 여느 강대국처럼 기병대가 군대의 주력이었다. 실제로 프로이센에는 150마리의 말과 기병으로 이루어진 기병대가 55개나 있었다. 그런데 기병대..

2023. 7. 17. 02:57

데이터 해석학5 -오차와 확률분포-

1. 데이터의 변동 파악 측정 결과가 우연오차에 의해 변동이 생긴다고 하지만, 이 변동을 어떻게 다루어야할까? 몸무게의 참값이 50kg인 A가 몸무게를 10번 측정한 경우를 생각해보자. 편향은 무시하고, 우연오차만 결과에 영향을 미친다고 가정하자. 이 우연오차의 특징을 파악하기 위해 측정을 10000번 반복한다. 결과를 단순히 수직선 위에 그리면 보기 어렵기 때문에 히스토그램을 사용하여 표시 막대의 폭(구간)을 0.02kg으로 설정하고, 그 안에 들어간 데이터의 개수를 높이로 표시한다. 분할된 각 구간을 bin이라고 한다. 예를 들면, 측정된 값이 50.00~50.02kg의 범위에 포함된 횟수가 771번 처럼 전체를 세세하게 나눠서 세고 있다. 이 히스토그램은 산 모양을 나타내고 있는데, 이 측정을 계속..

2022. 6. 2. 00:46

확률분포&연속형분포의 이산화&조건부분포&기댓값으로 구하는 통계량

1. 확률분포 $x \times y$라는 데이터 공간에서 D는 데이터를 만들어내는 하나의 확률분포이다. 이로부터 얻어낸 데이터는 하나의 확률변수로 $(x,y) \sim D$이다. 확률분포에 따라 데이터의 이산형, 연속형이 결정된다. 데이터 상태가 실수이냐 정수이냐랑은 크게 무관하다. 확률분포는 이론적으로 존재하며 단순히 데이터만 보고는 무슨 확률분포를 따르는지는 알 수 없다. -------------------------------------- 확률질량함수는 이산형확률변수의 확률함수로 그 값 자체가 확률이다. 확률변수가 공간 A에서 가질 수 있는 모든 경우의 수를 고려한 확률의 합으로 구해진다. ------------------------------------- 확률밀도함수는 연속형확률변수의 확률함수지만..