Loading...
2023. 12. 31. 02:05

18장 평균과 중앙값의 차이

1. 서론 통계학은 과학의 한 분야이다. 그런데 통계학에는 물리학, 화학, 생명과학 등 다른 자연과학과 구분되는 특징이 있다. 바로 통계적 추론이다. 물리학적 추론, 생물학적 추론, 화학적 추론이라는 말은 없다. 그러나 통계적 추론이라는 말은 있다. 왜 그럴까? 물리학은 자연의 법칙을 설명한다. 물리학 이론이 맞는지 아닌지 판단하기 위해서는 자연이라는 심판자에 의존한다. 화학도 생명과학도 대기과학도 마찬가지이다. 그런데 통계학의 심판자는 누구일까? 데이터를 분석해 계산한 예측의 성공 여부가 심판자일까? 이것은 낚싯대와 물고기를 혼동한 대답이다. 분석의 결과가 물고기라면 그 물고기를 낚은 낚싯대가 통계학이다. 자연이라는 심판자가 없기에 통계학은 자신의 성과를 평가해줄 새로운 심판이 필요하다. 이 심판 과정..

2023. 12. 30. 02:04

17장 지동설과 천동설, 귀무가설과 대립가설

1. 일상 속의 통계적 가설검정 두 가설이 충돌하는 일은 비일비재하다. 흡연이 암과 무관하다는 가설과 원인이라는 가설은 지난 20세기 의학계 내부뿐만 아니라 법정까지 넘나들며 충돌한 큰 사건이었다. 대한민국 식품의약품안전처는 판매하는 모든 의약품을 심사한다. 어느 제약회사의 신약 A에 대한 식약처의 가설은 '약 A는 효과가 없다'이다. 제약회사는 효과가 있음을 증명해야한다. 법정에서도 마찬가지이다. 무죄 추정의 원칙에 따라 형사재판의 모든 피의자는 증명되기 전에는 죄가 없다. 검사는 유죄를 증명해야 한다. 무죄와 유죄 두 가설이 충돌한다. 중세 유럽 과학자들은 지구가 우주의 중심이라고 생각했다. 당시 누구도 의심하지 않았던 지구중심설은 지동설의 선구자인 코페르니쿠스와 '그래도 지구는 돈다'로 유명한 갈릴..

2023. 12. 21. 02:40

16장 여론조사가 틀리는 이유

1. 여론조사의 비밀 한 여론조사에서 대통령 지지율이 39%로 나타났다. 표본 1000명 중 390명이 지지를 밝힌 셈이다. 그런데 이 숫자는 달라질 수 있는 값이다. 우연히 다른 시민이 여론조사 전화를 받았다면, 380명이나 400명이 지지한다고 답했을 수 있다. 이 여론조사에서 알아내려는 값은 진짜 대통령의 지지율이다. 실제로 정확히 알기란 불가능한 진짜 지지율은 모집단(전체 국민의 대통령 지지율)의 값이므로 모수라고 부른다. 여론조사에서 조사된 값이 '어떻게 얼마나 달라질 수 있었을까' 답을 구하려면 이 모수를 알면 정확히 알 수 있다. 모수 값이 정확히 얼마인지는 알 수 없지만, 어떤 값일 것이라고 가정할 수는 있다. 대통령의 진짜 지지율이 45%였다고 가정하자. 오늘을 무한히 다시 살며 여론조사..

2023. 12. 20. 02:56

15장 표본조사의 불확실성

1. 표본선정이 수반하는 불확실성 통계학의 데이터는 전체가 아닌 부분이다. 부분으로부터 결론을 내리기 때문에 언제나 불확실성을 수반한다. 여론조사는 전체 국민 중 일부를 무작위로 선정한다. 오늘 우연히 전화를 받아 여론조사에 응한 국민 1000명은 만약 오늘이 다시 시작되었다면, 전화를 받지 못하거나 전화가 오더라도 다른 일이 있어 응답하지 않을 수 있다. 통계에서 데이터는 이처럼 무한히 많은 하루하루의 서로 다를 수 있는 값 중 하나일 뿐이다. 우리가 가진 데이터는 우연의 산물이다. 그러니 우연한 값일 뿐인 데이터 그 자체보다 그 안에 숨어 있는 신호를 파악하는 것이 중요하다. 통계학에서는 전체를 모집단이라고 부른다. 영어로 하면 population, 인구 또는 모든 사람이라는 뜻이다. 그리고 이 모집..

2023. 12. 19. 01:36

14장 데이터는 어떻게, 얼마나 달라질 수 있었을까?

1. 5000만명 중 638만 가구에서 애완동물을 키운다? 농림축산식품부는 '2020년 동물보호에 대한 국민 의식 조사'에서 전국 638만 가구에서 애완동물을 키운다고 발표했다. 이 조사는 638만 가구 모두에게 답을 들어 알 수 있었을까? 당연히 그렇지 않다. 국민 5000명을 대상으로 의견을 구한 표본조사이다. 이처럼 전체 인구에 대한 답을 일부 값으로부터 추론하는 방법이 통계학의 주요 관심사이다. 한 나라의 통계 지표나 기업의 데이터로부터 계산된 통계는 부분으로 전체를 설명하려는 노력의 일환인 경우가 많다. 그렇다면 5000명의 표본이 우리나라 전체 인구를 대표할 수 있을까? 이 표본에 '우연히' 애완동물을 키우는 사람이 많았다면 그 답을 신뢰할 수 있을까? 2. 표본 조사의 비밀 통계학자는 표본 ..

2023. 12. 18. 02:39

13장 홍차 감별 속에 숨겨진 통계학의 핵심 아이디어

1. 차 마시는 여인 영국의 국민 음료는 단연 홍차이다. 20세기 초 영국의 로담스테드 농업연구소에서 일하던 생리학자 무리엘 브리스톨 박사도 홍차 애호가였다. 어느 날, 농업연구소 직원 중 하나인 로널드 피셔가 브리스톨 박사에게 홍차를 타서 권했다. 그녀는 거절했다. 잔에 차보다 우유를 먼저 따랐다는 것이 이유였다. 차를 먼저 따른 뒤에 우유를 따라야 진짜 영국식 홍차이다. 브리스톨의 주장이다. 피셔는 우유를 먼저 따르든 홍차를 먼저 따르든 맛에 차이가 있을 리 없다고 화를 냈고, 이 사달을 지켜보던 브리스톨 박사의 남편 윌리엄 로치는 작은 실험을 제안했다. 브리스톨 박사는 우유를 먼저 따른 홍차와 차를 먼저 따른 홍차를 정말 구별할 수 있을까? 로치의 실험은 다음과 같았다. 우유 - 차, 차 - 우유 ..