Loading...
2024. 1. 11. 02:17

21장 통계적으로 의미있는 차이와 실제로 의미있는 차이

1. 고등학교에 신설된 도서관 어느 도시의 교육청에서 고등학생들의 문해력을 향상하기 위해 몇몇 학교를 선별해 도서관을 새로 지었다. 이 정책의 효과는 얼마나 될까? 몇년 후 도서관을 신설한 고등학교 재학생 100명을 선별해 지난 1년 동안 교과서나 참고서 말고 읽은 책 수를 조사했다. 아이들의 평균 독서량은 무려 34권이었다. 도서관을 신설한 효과가 정말 큰 것인가? 쉽게 단정할 수 없다. 비교를 해야한다. 도서관을 새로 짓지 않은 다른 고등학교의 학생들을 조사했더니 평균 독서량은 34.4권이었다. 도서관이 신설된 학교 학생들의 독서량이 오히려 적은 것이었다. 이제 정반대의 질문을 할 차례이다. 신설된 도서관이 독서에 방해가 되는가? 이번에도 역시 쉽게 단정할 수 없다. 조사 결과의 우연성을 고려하면 두..

2023. 12. 11. 02:46

8장 프로이센 왕국의 기병대 말 뒷발차기 사망사건

1. 확률분포란 동전 던지기를 하면 앞면이 나올지 뒷면이 나올지 예측하기 어렵다. 앞면과 뒷면이 나올 가능성이 똑같아서 특별히 하나를 골라 맞히기 어렵다. 그렇다면 동전 던지기 결과에는 아무런 패턴이 없는 것일까? 아니다. 앞면이 나올 확률이 절반, 뒷면이 나올 확률이 절반이라는 패턴이 있다. 이처럼 그 결과가 예측 불가능하고 무작위성을 띠는 사건의 패턴을 확률로 기술한 것을 '확률분포'라고 한다. 정확히 어떤 값이 나올지는 알 수 없지만 확률분포를 이용하면 그 불확실성을 체계적으로 이해할 수 있다는 뜻이다. 2. 포아송분포 19세기 프로이센 왕국은 그 당시 유럽의 여느 강대국처럼 기병대가 군대의 주력이었다. 실제로 프로이센에는 150마리의 말과 기병으로 이루어진 기병대가 55개나 있었다. 그런데 기병대..

2023. 12. 5. 01:37

5장 데이터는 어떻게 정보가 되는가

1. 데이터에서 쓸모있는 정보를 찾아내는 것은 쉽지 않다 사람들은 합리적인 의사결정을 위해서 데이터를 찾는다. 인터넷 브라우저나 스마트폰의 네이버 지도에서 맛집을 검색하면 여러 유용한 정보를 쉽게 찾을 수 있다. 우리는 그 동네의 식당 명단과 함께 별점, 방문자와 블로거의 논평 같은 '정보'를 기반으로 이번 주말에 친구들과 갈 음식점을 정한다. 정부도 데이터를 구한다. 2020년 대한민국 통계청이 발표한 인구주택총조사에 따르면 1인 가구 비중은 전체 가구 수의 31.7%이며 점점 증가하는 추세에 있다. 1인 가구 중 20대는 19.1%, 70대 이상이 18.1%라고 한다. 이 정보를 바탕으로 정부는 1인 가구에 대한 사회보장 정책을 세운다. 그렇다면 데이터는 곧 정보일까? 정리되지 않은 데이터는 쓰레기 ..