Loading...
2024. 1. 30. 03:03

27장 평균 인간

1. 평균이 참에 가장 가까운 이유 산업혁명이 막 동튼 19세기 초 유럽에서 확률과 통계는 젊은 학문이었다. 통계는 주로 물리학과 천문학에 이용되었다. 그런데 물리학은 실험을 3번하면 3번 모두 다른 값이 나오기 마련이었고, 천체의 움직임도 측정할 때마다 다른 결과가 나왔다. 측정할 때마다 결과가 다르지만 참값이 하나라면 어떤 값이 참값에 가장 가까운가? 빛의 속도를 측정하는 실험을 3번 반복했더니 결과가 29.6만km/s, 30만km/s, 30.1만km/s 나왔다고 하자. 가운데 값인 중앙값 30만km/s가 참인가? 또는 평균인 29.9만km/s가 참인가? 측정된 세 값의 평균을 이용하는 것이 지금은 자연스럽지만, 당시에는 받아들여지기 어려운 개념이었다. 어떤 실험에서도 평균값 29.9만km/s는 나오..

2023. 12. 19. 01:36

14장 데이터는 어떻게, 얼마나 달라질 수 있었을까?

1. 5000만명 중 638만 가구에서 애완동물을 키운다? 농림축산식품부는 '2020년 동물보호에 대한 국민 의식 조사'에서 전국 638만 가구에서 애완동물을 키운다고 발표했다. 이 조사는 638만 가구 모두에게 답을 들어 알 수 있었을까? 당연히 그렇지 않다. 국민 5000명을 대상으로 의견을 구한 표본조사이다. 이처럼 전체 인구에 대한 답을 일부 값으로부터 추론하는 방법이 통계학의 주요 관심사이다. 한 나라의 통계 지표나 기업의 데이터로부터 계산된 통계는 부분으로 전체를 설명하려는 노력의 일환인 경우가 많다. 그렇다면 5000명의 표본이 우리나라 전체 인구를 대표할 수 있을까? 이 표본에 '우연히' 애완동물을 키우는 사람이 많았다면 그 답을 신뢰할 수 있을까? 2. 표본 조사의 비밀 통계학자는 표본 ..

2023. 7. 16. 02:29

데이터 해석학4 -우연오차와 편향-

1. 오차란 건강관리를 위해 매일 체중을 측정하고 기록하는 상황을 생각해보자. 실제 체중을 가능한한 정확하게 기록하고 싶지만, 정확한 체중계더라도 측정을 여러번 반복해보면 체중 값이 매번 조금씩 달라진다. 이런 상황을 '값에 변동이 있다'고 한다. 이 때, 진짜 체중의 값을 참값(true value)이라고 한다. 이 값은 절대 변하지 않는다. 그러므로 매번 체중계에서는 참값과는 다른 값이 표시되고 있다는 것이 된다. 좀 더 정확하게 측정하고 싶다면 입고 있는 옷의 무게도 빼야 한다는 것도 생각해야 한다. 이렇게 참값과 관측한 값의 차이를 오차(error)라고 한다. 2. 오차가 크면 정보가 사라진다 만일 체중계가 측정값이 측정할때마다 +-10kg씩 변동이 있다고 한다면, 매일 체중 변화를 기록하는데 아무..