Loading...
2024. 1. 29. 01:57

26장 파레토의 법칙

1. 불평등을 설명하는 파레토의 법칙 19세기 말 파리에서 태어나 이탈리아에서 활동한 경제학자 빌프레드 파레토는 권력과 부의 분배 문제에 관심이 매우 많았다. 동시대의 다른 학자들처럼 파레토는 이와 관련한 데이터를 수집했다. 스위스 바젤과 독일 아우크스부르크의 세금 납부 기록, 이탈리아, 영국, 프로이센, 아일랜드의 개인 소득 기록, 파리의 월세 기록 등 여러 유럽 국가의 재산과 소득에 관한 데이터였다. 이 데이터를 분석한 그가 발견한 법칙은 이랬다. 어떤 시대, 어떤 도시라도 80%의 부는 전체 인구의 20%가 소유하고 있다. 바로 파레토의 법칙이다. 고소득층 20명이 평균 2억 원 소득을 올린다면 나머지 80명은 평균 1250만원을 번다는 이야기이다. 20*20억: 80*0.125억 = 40억: 10..

2024. 1. 25. 02:33

25장 중심극한정리

1. 가장 자연스러운 분포, 정규분포 모든 수험생이 치른 대학수학능력시험 점수는 정규분포를 따른다. 20세 건강한 남자의 평균 키도 마찬가지다. 300ml 콜라 캔에 든 용량은 정확히 300ml가 아니다. 어떤 캔은 301ml일 수도 있고 어떤 캔은 299ml일 수도 있다. 캔마다 다른 용량의 분포도 정규분포이다. 정규분포는 통계 개념 중 가장 널리 쓰인다. 정규분포는 기준이 되는 어떤 값 평균을 중심으로 '자연스럽게' 퍼진 분포를 나타낸다. 콜라 캔에 담긴 용량이라면 300ml가 중심이다. 자연스럽게 퍼졌다는 뜻은 250ml나 330ml처럼 중심으로부터 매우 먼, 용량이 너무 적거나 많은 경우는 매우 드물다는 뜻이다. 20세 남성의 키는 중심이 되는 평균(174cm) 주변에 가장 많고 174cm에서 멀..

2024. 1. 3. 23:19

통계적 모델링과 최대가능도추정법(Maximum likelihood estimation) 간단하게

1. 통계적 모델링 적절한 가정 위에서 확률분포를 추정하는 것 유한한 개수의 데이터만 보고 정확한 모집단의 분포를 아는 것은 불가능하므로 근사적으로 추정함 예측모형의 목표는 분포를 정확하게 맞추는것보다 데이터와 추정방법의 불확실성을 고려하여 위험을 최소화하는 것이다. 데이터가 특정 확률분포를 따른다고 선험적으로 가정하고 분포를 결정하는 방법론은 모수적 방법론 특정 확률분포를 가정하지 않고 데이터에 따라 모델의 구조 및 모수의 개수가 유연하게 바뀌면 비모수적 방법론 비모수적 방법론은 모수를 안쓴다는 것이 아니라 특별한 확률분포를 가정하지 않는 것이다. 기계학습의 대부분은 비모수적 방법론이다. 확률분포는 어느정도 가이드라인이 있다고는 하는데 큰 의미는 없다.. 데이터를 생성한 원리나 전체적인 형태 등을 전부..

2024. 1. 1. 01:25

19장 잘못된 선택에 대하여

1. 통계적 가설검정의 딜레마 통계적 가설검정은 배신해야 하는 운명에 놓인 숙제 같다. 통계적 가설검정이 품은 문제를 간단히 표현하면 두 정규분포 중 하나를 고르는 문제와 같다. 확실하지 않은 상황에서 둘 중 하나를 골라야 하는 딜레마라고 할까 정규분포는 평균과 표준편차만으로 그 분포를 알 수 있다. 확률 이론에 따르면 정규분포에서 무작위로 뽑힌 관측값은 평균에서 표준편차의 2배 이내에 있다고 95% 확신할 수 있다. 평균이 0이고 표준편차가 1이라면 -2 ~+2 사이에서 관측될 것이다. 만약 평균이 2, 표준편차가 1이라면 0과 4 사이에 이 관측값이 있을 것이다. 물론 95% 확률로 그렇다는 말이다. 가설검정의 문제는 다음과 같다. 어떤 값을 관측했다. 이 값이 0.5라고 치자. 이 값은 어떤 분포에..

2022. 2. 16. 19:00

그래프의 연결성(degree)에 대한 고찰

1. degree 어떤 node V의 degree란 V에 연결된 link의 수 혹은 V의 neighbor의 수와 같다. 그래서 V의 degree를 $d(V)=\left | N(V) \right | $로 표기 1은 2,5와 연결되어 있어서 1의 연결성은 2이다. 2. direction graph 방향성이 있는 그래프의 경우 나가는 연결성(out degree)와 들어오는 연결성(in degree)을 구분한다. 당연하겠지만 나가는 연결성(out degree)는 특정 node V에서 나가는 방향과 연결된 node의 수이고 $d_{out}(V)=\left | N_{out}(V) \right | $으로 표기 들어오는 연결성(in degree)는 특정 노드 V에 들어오는 방향으로 연결된 node의 수이고 $d_{in..