Loading...
2024. 1. 30. 03:03

27장 평균 인간

1. 평균이 참에 가장 가까운 이유 산업혁명이 막 동튼 19세기 초 유럽에서 확률과 통계는 젊은 학문이었다. 통계는 주로 물리학과 천문학에 이용되었다. 그런데 물리학은 실험을 3번하면 3번 모두 다른 값이 나오기 마련이었고, 천체의 움직임도 측정할 때마다 다른 결과가 나왔다. 측정할 때마다 결과가 다르지만 참값이 하나라면 어떤 값이 참값에 가장 가까운가? 빛의 속도를 측정하는 실험을 3번 반복했더니 결과가 29.6만km/s, 30만km/s, 30.1만km/s 나왔다고 하자. 가운데 값인 중앙값 30만km/s가 참인가? 또는 평균인 29.9만km/s가 참인가? 측정된 세 값의 평균을 이용하는 것이 지금은 자연스럽지만, 당시에는 받아들여지기 어려운 개념이었다. 어떤 실험에서도 평균값 29.9만km/s는 나오..

2023. 12. 19. 01:36

14장 데이터는 어떻게, 얼마나 달라질 수 있었을까?

1. 5000만명 중 638만 가구에서 애완동물을 키운다? 농림축산식품부는 '2020년 동물보호에 대한 국민 의식 조사'에서 전국 638만 가구에서 애완동물을 키운다고 발표했다. 이 조사는 638만 가구 모두에게 답을 들어 알 수 있었을까? 당연히 그렇지 않다. 국민 5000명을 대상으로 의견을 구한 표본조사이다. 이처럼 전체 인구에 대한 답을 일부 값으로부터 추론하는 방법이 통계학의 주요 관심사이다. 한 나라의 통계 지표나 기업의 데이터로부터 계산된 통계는 부분으로 전체를 설명하려는 노력의 일환인 경우가 많다. 그렇다면 5000명의 표본이 우리나라 전체 인구를 대표할 수 있을까? 이 표본에 '우연히' 애완동물을 키우는 사람이 많았다면 그 답을 신뢰할 수 있을까? 2. 표본 조사의 비밀 통계학자는 표본 ..

경험분포함수(empirical distribution function)

우리가 가지고 있는 데이터 $x _{1},x _{2},...,x _{n}$는 어떠한 이상적인 확률분포를 따르는 확률변수 $X$의 관측값으로 생각할 수 있습니다. 그러나 이 확률변수 $X$의 100% 정확한 확률분포를 절대로 구할 수 없으며 그러한 확률분포를 추정하는 방법밖에 없습니다. 확률변수의 확률분포와 누적확률분포함수가 일대일대응한다는 것을 말씀드렸습니다. 만약 데이터 $x _{1},x _{2},...,x _{n}$를 가지고 확률변수 $X$의 누적확률분포함수를 추정할 수 있다면 데이터 $x _{1},x _{2},...,x _{n}$의 확률분포를 어느정도 알 수 있을 것입니다. 확률변수 $X$의 누적확률분포함수를 추정하는 가장 쉬운 방법으로 경험적 분포 함수인 empirical distribution ..