Loading...
2024. 6. 7. 02:39

n명 중 k명을 중복해서 선택하는 중복조합의 수 이해하기

1. 중복조합 n종류가 있을 때, k개를 선택하는데 종류의 중복을 허용해서 선택하는 방법의 수를 구하고 싶다. 예를 들어 a,b,c 3개의 문자 중 5개를 중복을 허용해서 선택한다면  (a,a,a,a,a) (a,a,a,a,b) (a,a,a,b,c) .... (b,b,b,c,c) 등등이 있다. 이러한 방법의 수를 어떻게 찾을 수 있을까? 5개의 빈칸에 a,b,c를 결정하면 되는데 2개의 칸막이를 이용해서 다음과 같이 구별하는 방법의 수로 이해할 수 있다   x1,x2 2개의 칸막이를 적당히 옮겨서 첫번째 영역에는 a를 전부 넣고, 두번째 영역에는 b를 전부 넣고 세번째 영역에는 c를 전부 넣는다. n종류를 구분할려면 필요한 칸막이의 개수는? n-1개이다. 1개를 놓으면 2 영역이 생기고 2개를 놓으면 3 ..

2024. 4. 20. 00:24

상관관계는 인과관계가 아니다 - confounder model(교란변수 모델)

0. 개요 조건부확률은 두 변수간의 상관정도를 측정해주는 통계적 해석을 제공하지만 데이터가 충분히 많아지더라도 이것이 인과관계를 가진다고 추론할 수는 없다. 조건부확률에 기반한 모형은 보통 확률분포 변화에 민감하다 무슨말이냐면 훈련된 모형에서 정확도가 매우 높더라도 테스트 모형에서 분포(데이터)가 조금이라도 변하면 성능이 떨어질 수 있다. 인과관계에 기반한 예측모형은 테스트할 때 데이터의 변화에 강건하여 성능변화가 거의 없다 조건부확률은 교란변수(중첩요인,confounding factor)의 영향에 의해 높게 측정될 수 있다 예를 들어 키가 클 수록 지능지수가 큰 경향이 있는데 일반적으로는 무관하다는 것을 안다 데이터 분석하면 저런 경향이 나오는데 나이라는 변수의 영향이 있어서 그렇다. 두 변수에 동시에..

2024. 2. 9. 02:30

30장 두 변수가 관계가 없다

1. 통계학의 목적 통계학의 가장 큰 목적은 미지수를 추측하는 일이다. 문제의 종류에 따라 추측 대신 추정, 예측, 가설검정 등의 용어가 쓰이지만 결국에는 모두 미지의 값을 추측한다고 볼 수 있다. 추측을 잘하려면 먼저 이 미지의 값에 영향을 주는 요인을 알아야한다. 이와 더불어 바로 이 요인과 추측하고자 하는 대상의 관계를 알아야 한다. 변수 간의 관계를 파악하는 것이 통계학의 핵심이다. 명문대학에 지원할 때 부모가 영향력 있는 사람인 것이 결과에 영향을 미칠까? 어느 명문대학에 지원하는 A는 이렇게 생각할 수 있다. "내 부모가 평범한 회사원이어서 나는 합격할 수 없어" 이 문제에서는 두 변수가 있다. 여기서 변수란 변할 수 있는 값이란 뜻이며 꼭 숫자가 아니어도 괜찮다. 첫번째 변수는 예측 대상인 ..

2024. 2. 2. 21:45

29장 평균으로의 회귀

1. 뛰어난 자질은 유전된다 20세기 초에 우생학이 제국주의 유럽을 휩쓸었다. 우생학은 우수한 유전형질을 가진 사람과 그렇지 않은 인류가 나눠져 유전적으로 인류를 개량해야 한다는 일종의 이데올로기이다. 인종 차별의 이론적 근거를 마련하려던 우생학은 지금은 학문으로 인정받지 못한다. 하지만 당시에는 다윈의 진화론과 엮여 학문의 한 분야인 것처럼 행세했다. 다윈의 사촌동생이자 우생학의 시초로 종종 지목되는 프랜시스 골턴은 "뛰어난 자질은 유전된다"는 믿음을 확인하기 위해 영국과 유럽 대륙의 여러 유명한 가문을 조사했다. 정치인, 시인, 과학자, 종교인, 군인 및 레슬링 선수들의 가계를 살펴 라는 책으로 출판하였다. 골턴은 우수한 유전자가 흐르는 뛰어난 자질을 가진 가계가 분명히 존재한다는 것을 증명하고자 했..

2024. 1. 31. 23:00

28장 복권을 사면 살수록 손해본다

1. 기댓값 1043억 1607만 8000원! 2022년 9월 대한민국 1031회 로또복권 총 판매금액이다. 서민들의 살림살이가 어려워질수록 복권 판매금액은 늘어난다고 한다. 저마다의 사연으로, 저마다의 인생 역전을 꿈꾸며 소위 '명당'이라고 불리는 복권 판매점 앞에는 이른 아침부터 손님이 몰리기도 한다. 모두 30억원짜리 1등에 당첨되면 좋겠지만 십중팔구 낙첨이다. NBA 농구선수 샤킬 오닐은 자유투 실력이 별로인 것으로 유명하다. 2번 쏘면 1번 들어가는 정도였다. 복권 당첨이나 샤킬 오닐이 자유투에 모두 성공하는 것은 결과를 미리 알 수 없는 불확실한 사건이다. 사람들은 복권이 당첨되기를 바라고, 샤킬 오닐은 자유투가 2번 모두 림 안에 들어가기를 바라며 슛을 쏜다. 다만 관중의 기대는 냉철해 2번..

2024. 1. 30. 03:03

27장 평균 인간

1. 평균이 참에 가장 가까운 이유 산업혁명이 막 동튼 19세기 초 유럽에서 확률과 통계는 젊은 학문이었다. 통계는 주로 물리학과 천문학에 이용되었다. 그런데 물리학은 실험을 3번하면 3번 모두 다른 값이 나오기 마련이었고, 천체의 움직임도 측정할 때마다 다른 결과가 나왔다. 측정할 때마다 결과가 다르지만 참값이 하나라면 어떤 값이 참값에 가장 가까운가? 빛의 속도를 측정하는 실험을 3번 반복했더니 결과가 29.6만km/s, 30만km/s, 30.1만km/s 나왔다고 하자. 가운데 값인 중앙값 30만km/s가 참인가? 또는 평균인 29.9만km/s가 참인가? 측정된 세 값의 평균을 이용하는 것이 지금은 자연스럽지만, 당시에는 받아들여지기 어려운 개념이었다. 어떤 실험에서도 평균값 29.9만km/s는 나오..