Loading...
2024. 1. 16. 02:45

23장 편견도 데이터가 많으면 바뀐다

다시 동전 던지기 게임이 시작됐다. 동전을 10번 던져 그 결과를 보고 시연자가 앞면이 절반 나올 확률로 던지는 공평한 사람인지, 68% 확률로 던지는 캐나다 의사인지 맞춰보자. 이번에는 동전을 10번 던져 앞면이 무려 9번이 나왔다. 통계학자의 계산에 따르면 10번 던져 앞면이 9번 나왔을때, 시연자가 캐나다 의사일 확률은 91%, 공평한 사람일 확률은 9%라고 한다. 캐나다 의사일 확률이 높으므로 시연자는 캐나다 의사이다. 베이즈 추론의 결과이다. 이 확률값 91%는 어떻게 계산할까? 놀랍게도 가장 객관적일 것 같은 이 확률은 사실은 매우 주관적인 값이다. 다음은 게임을 시작하기 전 여러분이 할 법한 생각이다. 1) 시연자가 공평한 사람인지 의사인지 알 수 없으므로 캐나다 의사일 확률은 50% 2) ..

2024. 1. 4. 23:46

조건부확률과 베이즈정리 이론 간단하게

1. 조건부확률 P(A|B)는 사건 B가 일어난 상황에서 사건 A가 발생할 확률 P(A∩B)=P(B)P(A|B) 2. 조건부확률 시각화 민감도, 특이도, 정밀도,재현율, F1score를 구분함 그림의 정밀도가 정확도 귀무가설 H0 :음성, 대립가설 H1 :양성 실제로 걸리진 않았는데(귀무가설이 참) 걸렸다고 검진(귀무가설 기각)한 경우 False positive는 1종오류 실제로 걸렸는데(대립가설이 참) 검진하지 못한(대립가설 기각) 경우 False Negative는 2종오류 보통 정확도는 False Positive가 커질 경우 떨어진다(식만 봐도 알 수 있음) 보통 1종오류보다 2종오류가 심각하여, 1종오류를 조금 희생하더라도 2종오류를 줄이려고 한다 위에 1종,2종오류 의미만 보더라도 실제로 걸렸는데..

2024. 1. 3. 23:19

통계적 모델링과 최대가능도추정법(Maximum likelihood estimation) 간단하게

1. 통계적 모델링 적절한 가정 위에서 확률분포를 추정하는 것 유한한 개수의 데이터만 보고 정확한 모집단의 분포를 아는 것은 불가능하므로 근사적으로 추정함 예측모형의 목표는 분포를 정확하게 맞추는것보다 데이터와 추정방법의 불확실성을 고려하여 위험을 최소화하는 것이다. 데이터가 특정 확률분포를 따른다고 선험적으로 가정하고 분포를 결정하는 방법론은 모수적 방법론 특정 확률분포를 가정하지 않고 데이터에 따라 모델의 구조 및 모수의 개수가 유연하게 바뀌면 비모수적 방법론 비모수적 방법론은 모수를 안쓴다는 것이 아니라 특별한 확률분포를 가정하지 않는 것이다. 기계학습의 대부분은 비모수적 방법론이다. 확률분포는 어느정도 가이드라인이 있다고는 하는데 큰 의미는 없다.. 데이터를 생성한 원리나 전체적인 형태 등을 전부..

2023. 12. 5. 01:37

5장 데이터는 어떻게 정보가 되는가

1. 데이터에서 쓸모있는 정보를 찾아내는 것은 쉽지 않다 사람들은 합리적인 의사결정을 위해서 데이터를 찾는다. 인터넷 브라우저나 스마트폰의 네이버 지도에서 맛집을 검색하면 여러 유용한 정보를 쉽게 찾을 수 있다. 우리는 그 동네의 식당 명단과 함께 별점, 방문자와 블로거의 논평 같은 '정보'를 기반으로 이번 주말에 친구들과 갈 음식점을 정한다. 정부도 데이터를 구한다. 2020년 대한민국 통계청이 발표한 인구주택총조사에 따르면 1인 가구 비중은 전체 가구 수의 31.7%이며 점점 증가하는 추세에 있다. 1인 가구 중 20대는 19.1%, 70대 이상이 18.1%라고 한다. 이 정보를 바탕으로 정부는 1인 가구에 대한 사회보장 정책을 세운다. 그렇다면 데이터는 곧 정보일까? 정리되지 않은 데이터는 쓰레기 ..

2023. 11. 29. 00:09

2장 도박사의 판돈 나누기

1. 갑자기 도박이 중단되었을 때 17세기 프랑스의 한량이었던 앙투안 공보는 한창 도박을 즐기던 도중에 오늘날 '판돈 나누기'라고 불리는 문제에 직면했다. 앙투안 공보의 문제를 현대적으로 각색하면 다음과 같다. 한국의 프로야구는 매년 한국시리즈라는 7전 4선승제의 결승전을 치른다. 만약 올해의 한국시리즈에는 LG 트윈스와 KT wiz가 진출해 1차전은 kt가 승리, 2차전은 LG가 승리 3차전, 4차전을 KT가 다시 승리했다고 하자. 이 때, 코로나 바이러스의 창궐로 한국시리즈는 중단되고 남은 경기는 취소가 결정되었다. KT는 우승까지 단 1경기 남았고 현재까지 이기고 있으니 상금 10억원을 받아야한다고 주장한다. LG는 우리가 우승할 가능성이 여전히 남아있으니 공평하게 5억원씩 나눠야한다고 한다. 이런..

2023. 11. 28. 01:51

1장 확률의 정의 - 도박과 동전 던지기, 라플라스

1. 확률 - 앞으로 벌어질 사건에 대한 믿음 확률은 인류의 역사만큼이나 오래된 도박과 함께 등장했다. 도박이란 그 결과를 미리 알 수 없는 행위에 따라 승부가 결정된다. 예를 들어 동전 던지기와 주사위 굴리기처럼 앞으로 벌어질 사건에 대한 가능성이나 우리의 믿음을 숫자로 표현한 것이 곧 확률이다. 어떤 사건이 벌어질 가능성이 클수록 100%에 가까운 확률이 생기고, 반대로 가능성이 작을수록 0%에 가까운 확률이 발생한다. 이를테면 정육면체 주사위를 굴려 1이 나올 가능성은 다른 5개의 숫자가 나올 가능성과 같다. 쉽게 말해 1부터 6까지 모든 숫자가 나올 가능성이 같으므로, 그 가능성을 수로 표현한 확률 역시 모두 같은 것이다. 따라서 주사위 굴리기의 결과가 1일 확률은 1/6으로 16.7%이다. 한국..