Loading...
2023. 12. 7. 01:25

6장 나이팅게일의 장미 그림, 7장 라플라스의 프랑스 전체 인구 추산법

1. 나이팅게일의 장미 그림, 데이터로 목숨을 구하다 의사에게 가 있다면 간호사에게는 가 있다. 간호사의 대명사 플로렌스 나이팅게일. 아마 많은 사람이 흰 간호복을 입고 부상병을 헌신적으로 돌보는, 말 그대로 '백의의 천사'를 떠올릴 수 있겠다. 그러나 나이팅게일은 헌신적인 간호사 그 이상이었다. 그녀는 간호와 보건 분야가 전문인 행정가이자 영국 왕립 통계학회의 첫 번째 여성 회원인 통계학자였다. 나이팅게일이 활동하던 시대에는 오스만 제국과 러시아 제국이 크림반도를 둘러싸고 전쟁을 벌였다. 현재 우크라이나에 속한 그 지역에서 일어난 전쟁이다. 러시아를 견제하려는 영국군이 참전하면서 나이팅게일도 부상병을 치료하기 위해 동쪽으로 떠났다. 임시로 지은 치료소는 열악했다. 쥐 떼가 출몰하고, 전염병이 도는 게 ..

2023. 11. 30. 00:19

3장 점술가의 데이터 사용법, 4장 데이터 없이는 통계도 없다

1. 점술가가 미래를 예측하는 방법 사람들은 마음을 의지하고 싶거나 그저 재미로 종종 점집을 찾는다. 점술가가 자신의 과거, 현재, 미래를 꿰뚫어 보았다는 누군가의 증언이 있으면 더 솔깃해진다. 고객의 생김새, 행동거지, 옷매무새 등과 짧은 대화만으로 그의 특성을 단시간에 파악하고 엇비슷한 부류의 전형적인 고민거리와 배경을 빠르게 도출해내는 점술가가 유려한 언변과 태도, 유연한 대응, 여기에 손님들의 '생존자 편향'이 더해진다면 '용한 점술가'가 탄생할 수 있다. 생존자 편향이란 좋은 경험만 공유하고, 좋지 않은 경험은 함구하는 경향을 말한다. 영민한 점술가는 본인이 의도하지 않더라도 통계의 가장 기본적인 얼개를 이용한다. 자신의 상담 경험과 기존 사례들(이를 데이터로 볼 수 있다)을 기반으로 지금 눈앞..

모든 부분집합 원소의 곱의 합을 구하는 공식이 있다고?

1. 문제 9375번: 패션왕 신해빈 (acmicpc.net) 9375번: 패션왕 신해빈 첫 번째 테스트 케이스는 headgear에 해당하는 의상이 hat, turban이며 eyewear에 해당하는 의상이 sunglasses이므로 (hat), (turban), (sunglasses), (hat,sunglasses), (turban,sunglasses)로 총 5가지 이다. www.acmicpc.net 2. 풀이 경우의 수가 바로 안나오기는 한디... 경우를 나눠서 생각해보면 hat headgear sunglasses eyewear turban headgear headgear에 2가지 있고 eyewear에 1가지 있는데.. headgear에서 1가지를 뽑는 경우의 수 = 2가지 + eyewear에서 1가지 ..

2023. 7. 17. 02:57

데이터 해석학5 -오차와 확률분포-

1. 데이터의 변동 파악 측정 결과가 우연오차에 의해 변동이 생긴다고 하지만, 이 변동을 어떻게 다루어야할까? 몸무게의 참값이 50kg인 A가 몸무게를 10번 측정한 경우를 생각해보자. 편향은 무시하고, 우연오차만 결과에 영향을 미친다고 가정하자. 이 우연오차의 특징을 파악하기 위해 측정을 10000번 반복한다. 결과를 단순히 수직선 위에 그리면 보기 어렵기 때문에 히스토그램을 사용하여 표시 막대의 폭(구간)을 0.02kg으로 설정하고, 그 안에 들어간 데이터의 개수를 높이로 표시한다. 분할된 각 구간을 bin이라고 한다. 예를 들면, 측정된 값이 50.00~50.02kg의 범위에 포함된 횟수가 771번 처럼 전체를 세세하게 나눠서 세고 있다. 이 히스토그램은 산 모양을 나타내고 있는데, 이 측정을 계속..

2023. 7. 16. 02:29

데이터 해석학4 -우연오차와 편향-

1. 오차란 건강관리를 위해 매일 체중을 측정하고 기록하는 상황을 생각해보자. 실제 체중을 가능한한 정확하게 기록하고 싶지만, 정확한 체중계더라도 측정을 여러번 반복해보면 체중 값이 매번 조금씩 달라진다. 이런 상황을 '값에 변동이 있다'고 한다. 이 때, 진짜 체중의 값을 참값(true value)이라고 한다. 이 값은 절대 변하지 않는다. 그러므로 매번 체중계에서는 참값과는 다른 값이 표시되고 있다는 것이 된다. 좀 더 정확하게 측정하고 싶다면 입고 있는 옷의 무게도 빼야 한다는 것도 생각해야 한다. 이렇게 참값과 관측한 값의 차이를 오차(error)라고 한다. 2. 오차가 크면 정보가 사라진다 만일 체중계가 측정값이 측정할때마다 +-10kg씩 변동이 있다고 한다면, 매일 체중 변화를 기록하는데 아무..

2023. 7. 12. 02:51

데이터 해석학3 - 관계가 있는 것처럼 보이는 지표를 혼용하는 오류-

1. 관계가 있는 것처럼 보이는 지표를 혼용하지 않는다 데이터 분석 현장에서는 측정하기 어려운 것을 정량화 할 때 '측정하기 쉬운' 지표가 우선적으로 사용되는 경향이 있다. 하지만 이렇게 도입된 지표가 측정하려는 것을 반영하고 있지 않는 경우가 많다. 예를 들어 연구자나 연구기관의 '연구 실적'을 측정할 때, 획득한 연구비의 액수가 고려되는(많으면 많을수록 좋다) 경우가 자주 있지만, 이것은 연구활동의 인풋으로 사용되는 금액이며, 연구의 아웃풋과는 원래 따로 생각해야하는 지표이다. 즉, 사용한 금액에 비례해서 어느 정도 성과를 이루었는지에 대해서는 의미가 있는 지표이다. 이렇게 무엇인가의 아웃풋을 측정하고 싶은데, 측정하기 쉬운 입력과 관계있는 다른 양으로 대체하는 오류는 자주 보이는 오류중 하나이다. ..