Loading...
2023. 12. 20. 02:56

15장 표본조사의 불확실성

1. 표본선정이 수반하는 불확실성 통계학의 데이터는 전체가 아닌 부분이다. 부분으로부터 결론을 내리기 때문에 언제나 불확실성을 수반한다. 여론조사는 전체 국민 중 일부를 무작위로 선정한다. 오늘 우연히 전화를 받아 여론조사에 응한 국민 1000명은 만약 오늘이 다시 시작되었다면, 전화를 받지 못하거나 전화가 오더라도 다른 일이 있어 응답하지 않을 수 있다. 통계에서 데이터는 이처럼 무한히 많은 하루하루의 서로 다를 수 있는 값 중 하나일 뿐이다. 우리가 가진 데이터는 우연의 산물이다. 그러니 우연한 값일 뿐인 데이터 그 자체보다 그 안에 숨어 있는 신호를 파악하는 것이 중요하다. 통계학에서는 전체를 모집단이라고 부른다. 영어로 하면 population, 인구 또는 모든 사람이라는 뜻이다. 그리고 이 모집..

2023. 12. 19. 01:36

14장 데이터는 어떻게, 얼마나 달라질 수 있었을까?

1. 5000만명 중 638만 가구에서 애완동물을 키운다? 농림축산식품부는 '2020년 동물보호에 대한 국민 의식 조사'에서 전국 638만 가구에서 애완동물을 키운다고 발표했다. 이 조사는 638만 가구 모두에게 답을 들어 알 수 있었을까? 당연히 그렇지 않다. 국민 5000명을 대상으로 의견을 구한 표본조사이다. 이처럼 전체 인구에 대한 답을 일부 값으로부터 추론하는 방법이 통계학의 주요 관심사이다. 한 나라의 통계 지표나 기업의 데이터로부터 계산된 통계는 부분으로 전체를 설명하려는 노력의 일환인 경우가 많다. 그렇다면 5000명의 표본이 우리나라 전체 인구를 대표할 수 있을까? 이 표본에 '우연히' 애완동물을 키우는 사람이 많았다면 그 답을 신뢰할 수 있을까? 2. 표본 조사의 비밀 통계학자는 표본 ..

2023. 1. 4. 00:21

비전공자도 이해할 수 있는 AI지식 -단순한 머신러닝 모델의 강력한 힘-

1. 의사결정나무, 단순하지만 강력하다 강남역의 교통 체증을 예측하는 가장 간단한 방법은 조건에 따라 분기하는 모델인 의사결정나무를 만드는 겁니다. 우리가 어릴 때 하던 스무고개놀이와 비슷합니다. 스무고개놀이란 말 그대로 예 혹은 아니오로 답할 수 있는 질문을 스무번 제시하여 정답을 알아맞히는 놀이입니다. 질문의 횟수는 적을수록 좋습니다. 그렇다면 가급적 정답을 빨리 맞힐 수 있는 질문을 제시해야겠죠. 어떻게 질문을 구성해야 할까요? 2. 정답을 가장 빨리 찾는 질문은...? 의사결정나무를 구축할 때는 복잡도인 엔트로피(entropy)를 낮추는 형태로 진행합니다. 복잡도는 다르게 표현하면 불확실성의 정도(uncertainty)라 할 수 있습니다. 즉 엔트로피가 낮아지면 복잡도와 불확실성이 줄어듭니다. 이..