Loading...
2024. 1. 1. 01:25

19장 잘못된 선택에 대하여

1. 통계적 가설검정의 딜레마 통계적 가설검정은 배신해야 하는 운명에 놓인 숙제 같다. 통계적 가설검정이 품은 문제를 간단히 표현하면 두 정규분포 중 하나를 고르는 문제와 같다. 확실하지 않은 상황에서 둘 중 하나를 골라야 하는 딜레마라고 할까 정규분포는 평균과 표준편차만으로 그 분포를 알 수 있다. 확률 이론에 따르면 정규분포에서 무작위로 뽑힌 관측값은 평균에서 표준편차의 2배 이내에 있다고 95% 확신할 수 있다. 평균이 0이고 표준편차가 1이라면 -2 ~+2 사이에서 관측될 것이다. 만약 평균이 2, 표준편차가 1이라면 0과 4 사이에 이 관측값이 있을 것이다. 물론 95% 확률로 그렇다는 말이다. 가설검정의 문제는 다음과 같다. 어떤 값을 관측했다. 이 값이 0.5라고 치자. 이 값은 어떤 분포에..

2023. 7. 12. 02:51

데이터 해석학3 - 관계가 있는 것처럼 보이는 지표를 혼용하는 오류-

1. 관계가 있는 것처럼 보이는 지표를 혼용하지 않는다 데이터 분석 현장에서는 측정하기 어려운 것을 정량화 할 때 '측정하기 쉬운' 지표가 우선적으로 사용되는 경향이 있다. 하지만 이렇게 도입된 지표가 측정하려는 것을 반영하고 있지 않는 경우가 많다. 예를 들어 연구자나 연구기관의 '연구 실적'을 측정할 때, 획득한 연구비의 액수가 고려되는(많으면 많을수록 좋다) 경우가 자주 있지만, 이것은 연구활동의 인풋으로 사용되는 금액이며, 연구의 아웃풋과는 원래 따로 생각해야하는 지표이다. 즉, 사용한 금액에 비례해서 어느 정도 성과를 이루었는지에 대해서는 의미가 있는 지표이다. 이렇게 무엇인가의 아웃풋을 측정하고 싶은데, 측정하기 쉬운 입력과 관계있는 다른 양으로 대체하는 오류는 자주 보이는 오류중 하나이다. ..

2022. 4. 7. 00:29

bias and variance trade off

1. variance variance는 출력의 일관성을 측정한다. 즉 입력값이 달라지더라도 출력이 얼마나 일관적인지 알아보는 값이다. variance가 작을수록 출력이 일관적이다. 보통 간단한 모형일 수록 low variance고 복잡한 모형일수록 high variance low variance일수록 좋은데 왜냐하면 bias만큼 모형을 shift시키면 true value를 정확히 예측하는 좋은 모형을 얻는다. 2. bias bias는 얼마나 평균적으로 true value에 몰려있는가를 측정한다. 착각하면 안되는 것이 단순히 얼마나 몰려있는가가 아니라 true value에 몰려있는가를 측정하는 것 true value에 몰려있을 수록 작다 bias와 variance를 둘 다 줄이는 것이 사실 베스트 3. ‘..