Loading...
2024. 2. 9. 02:30

30장 두 변수가 관계가 없다

1. 통계학의 목적 통계학의 가장 큰 목적은 미지수를 추측하는 일이다. 문제의 종류에 따라 추측 대신 추정, 예측, 가설검정 등의 용어가 쓰이지만 결국에는 모두 미지의 값을 추측한다고 볼 수 있다. 추측을 잘하려면 먼저 이 미지의 값에 영향을 주는 요인을 알아야한다. 이와 더불어 바로 이 요인과 추측하고자 하는 대상의 관계를 알아야 한다. 변수 간의 관계를 파악하는 것이 통계학의 핵심이다. 명문대학에 지원할 때 부모가 영향력 있는 사람인 것이 결과에 영향을 미칠까? 어느 명문대학에 지원하는 A는 이렇게 생각할 수 있다. "내 부모가 평범한 회사원이어서 나는 합격할 수 없어" 이 문제에서는 두 변수가 있다. 여기서 변수란 변할 수 있는 값이란 뜻이며 꼭 숫자가 아니어도 괜찮다. 첫번째 변수는 예측 대상인 ..

2024. 2. 2. 21:45

29장 평균으로의 회귀

1. 뛰어난 자질은 유전된다 20세기 초에 우생학이 제국주의 유럽을 휩쓸었다. 우생학은 우수한 유전형질을 가진 사람과 그렇지 않은 인류가 나눠져 유전적으로 인류를 개량해야 한다는 일종의 이데올로기이다. 인종 차별의 이론적 근거를 마련하려던 우생학은 지금은 학문으로 인정받지 못한다. 하지만 당시에는 다윈의 진화론과 엮여 학문의 한 분야인 것처럼 행세했다. 다윈의 사촌동생이자 우생학의 시초로 종종 지목되는 프랜시스 골턴은 "뛰어난 자질은 유전된다"는 믿음을 확인하기 위해 영국과 유럽 대륙의 여러 유명한 가문을 조사했다. 정치인, 시인, 과학자, 종교인, 군인 및 레슬링 선수들의 가계를 살펴 라는 책으로 출판하였다. 골턴은 우수한 유전자가 흐르는 뛰어난 자질을 가진 가계가 분명히 존재한다는 것을 증명하고자 했..

2024. 1. 31. 23:00

28장 복권을 사면 살수록 손해본다

1. 기댓값 1043억 1607만 8000원! 2022년 9월 대한민국 1031회 로또복권 총 판매금액이다. 서민들의 살림살이가 어려워질수록 복권 판매금액은 늘어난다고 한다. 저마다의 사연으로, 저마다의 인생 역전을 꿈꾸며 소위 '명당'이라고 불리는 복권 판매점 앞에는 이른 아침부터 손님이 몰리기도 한다. 모두 30억원짜리 1등에 당첨되면 좋겠지만 십중팔구 낙첨이다. NBA 농구선수 샤킬 오닐은 자유투 실력이 별로인 것으로 유명하다. 2번 쏘면 1번 들어가는 정도였다. 복권 당첨이나 샤킬 오닐이 자유투에 모두 성공하는 것은 결과를 미리 알 수 없는 불확실한 사건이다. 사람들은 복권이 당첨되기를 바라고, 샤킬 오닐은 자유투가 2번 모두 림 안에 들어가기를 바라며 슛을 쏜다. 다만 관중의 기대는 냉철해 2번..

2024. 1. 30. 03:03

27장 평균 인간

1. 평균이 참에 가장 가까운 이유 산업혁명이 막 동튼 19세기 초 유럽에서 확률과 통계는 젊은 학문이었다. 통계는 주로 물리학과 천문학에 이용되었다. 그런데 물리학은 실험을 3번하면 3번 모두 다른 값이 나오기 마련이었고, 천체의 움직임도 측정할 때마다 다른 결과가 나왔다. 측정할 때마다 결과가 다르지만 참값이 하나라면 어떤 값이 참값에 가장 가까운가? 빛의 속도를 측정하는 실험을 3번 반복했더니 결과가 29.6만km/s, 30만km/s, 30.1만km/s 나왔다고 하자. 가운데 값인 중앙값 30만km/s가 참인가? 또는 평균인 29.9만km/s가 참인가? 측정된 세 값의 평균을 이용하는 것이 지금은 자연스럽지만, 당시에는 받아들여지기 어려운 개념이었다. 어떤 실험에서도 평균값 29.9만km/s는 나오..

2024. 1. 29. 01:57

26장 파레토의 법칙

1. 불평등을 설명하는 파레토의 법칙 19세기 말 파리에서 태어나 이탈리아에서 활동한 경제학자 빌프레드 파레토는 권력과 부의 분배 문제에 관심이 매우 많았다. 동시대의 다른 학자들처럼 파레토는 이와 관련한 데이터를 수집했다. 스위스 바젤과 독일 아우크스부르크의 세금 납부 기록, 이탈리아, 영국, 프로이센, 아일랜드의 개인 소득 기록, 파리의 월세 기록 등 여러 유럽 국가의 재산과 소득에 관한 데이터였다. 이 데이터를 분석한 그가 발견한 법칙은 이랬다. 어떤 시대, 어떤 도시라도 80%의 부는 전체 인구의 20%가 소유하고 있다. 바로 파레토의 법칙이다. 고소득층 20명이 평균 2억 원 소득을 올린다면 나머지 80명은 평균 1250만원을 번다는 이야기이다. 20*20억: 80*0.125억 = 40억: 10..

2024. 1. 25. 02:33

25장 중심극한정리

1. 가장 자연스러운 분포, 정규분포 모든 수험생이 치른 대학수학능력시험 점수는 정규분포를 따른다. 20세 건강한 남자의 평균 키도 마찬가지다. 300ml 콜라 캔에 든 용량은 정확히 300ml가 아니다. 어떤 캔은 301ml일 수도 있고 어떤 캔은 299ml일 수도 있다. 캔마다 다른 용량의 분포도 정규분포이다. 정규분포는 통계 개념 중 가장 널리 쓰인다. 정규분포는 기준이 되는 어떤 값 평균을 중심으로 '자연스럽게' 퍼진 분포를 나타낸다. 콜라 캔에 담긴 용량이라면 300ml가 중심이다. 자연스럽게 퍼졌다는 뜻은 250ml나 330ml처럼 중심으로부터 매우 먼, 용량이 너무 적거나 많은 경우는 매우 드물다는 뜻이다. 20세 남성의 키는 중심이 되는 평균(174cm) 주변에 가장 많고 174cm에서 멀..