Loading...
2024. 1. 16. 02:45

23장 편견도 데이터가 많으면 바뀐다

다시 동전 던지기 게임이 시작됐다. 동전을 10번 던져 그 결과를 보고 시연자가 앞면이 절반 나올 확률로 던지는 공평한 사람인지, 68% 확률로 던지는 캐나다 의사인지 맞춰보자. 이번에는 동전을 10번 던져 앞면이 무려 9번이 나왔다. 통계학자의 계산에 따르면 10번 던져 앞면이 9번 나왔을때, 시연자가 캐나다 의사일 확률은 91%, 공평한 사람일 확률은 9%라고 한다. 캐나다 의사일 확률이 높으므로 시연자는 캐나다 의사이다. 베이즈 추론의 결과이다. 이 확률값 91%는 어떻게 계산할까? 놀랍게도 가장 객관적일 것 같은 이 확률은 사실은 매우 주관적인 값이다. 다음은 게임을 시작하기 전 여러분이 할 법한 생각이다. 1) 시연자가 공평한 사람인지 의사인지 알 수 없으므로 캐나다 의사일 확률은 50% 2) ..

2024. 1. 11. 02:17

21장 통계적으로 의미있는 차이와 실제로 의미있는 차이

1. 고등학교에 신설된 도서관 어느 도시의 교육청에서 고등학생들의 문해력을 향상하기 위해 몇몇 학교를 선별해 도서관을 새로 지었다. 이 정책의 효과는 얼마나 될까? 몇년 후 도서관을 신설한 고등학교 재학생 100명을 선별해 지난 1년 동안 교과서나 참고서 말고 읽은 책 수를 조사했다. 아이들의 평균 독서량은 무려 34권이었다. 도서관을 신설한 효과가 정말 큰 것인가? 쉽게 단정할 수 없다. 비교를 해야한다. 도서관을 새로 짓지 않은 다른 고등학교의 학생들을 조사했더니 평균 독서량은 34.4권이었다. 도서관이 신설된 학교 학생들의 독서량이 오히려 적은 것이었다. 이제 정반대의 질문을 할 차례이다. 신설된 도서관이 독서에 방해가 되는가? 이번에도 역시 쉽게 단정할 수 없다. 조사 결과의 우연성을 고려하면 두..

2024. 1. 1. 01:25

19장 잘못된 선택에 대하여

1. 통계적 가설검정의 딜레마 통계적 가설검정은 배신해야 하는 운명에 놓인 숙제 같다. 통계적 가설검정이 품은 문제를 간단히 표현하면 두 정규분포 중 하나를 고르는 문제와 같다. 확실하지 않은 상황에서 둘 중 하나를 골라야 하는 딜레마라고 할까 정규분포는 평균과 표준편차만으로 그 분포를 알 수 있다. 확률 이론에 따르면 정규분포에서 무작위로 뽑힌 관측값은 평균에서 표준편차의 2배 이내에 있다고 95% 확신할 수 있다. 평균이 0이고 표준편차가 1이라면 -2 ~+2 사이에서 관측될 것이다. 만약 평균이 2, 표준편차가 1이라면 0과 4 사이에 이 관측값이 있을 것이다. 물론 95% 확률로 그렇다는 말이다. 가설검정의 문제는 다음과 같다. 어떤 값을 관측했다. 이 값이 0.5라고 치자. 이 값은 어떤 분포에..

2023. 12. 31. 02:05

18장 평균과 중앙값의 차이

1. 서론 통계학은 과학의 한 분야이다. 그런데 통계학에는 물리학, 화학, 생명과학 등 다른 자연과학과 구분되는 특징이 있다. 바로 통계적 추론이다. 물리학적 추론, 생물학적 추론, 화학적 추론이라는 말은 없다. 그러나 통계적 추론이라는 말은 있다. 왜 그럴까? 물리학은 자연의 법칙을 설명한다. 물리학 이론이 맞는지 아닌지 판단하기 위해서는 자연이라는 심판자에 의존한다. 화학도 생명과학도 대기과학도 마찬가지이다. 그런데 통계학의 심판자는 누구일까? 데이터를 분석해 계산한 예측의 성공 여부가 심판자일까? 이것은 낚싯대와 물고기를 혼동한 대답이다. 분석의 결과가 물고기라면 그 물고기를 낚은 낚싯대가 통계학이다. 자연이라는 심판자가 없기에 통계학은 자신의 성과를 평가해줄 새로운 심판이 필요하다. 이 심판 과정..