Loading...
2023. 7. 12. 02:51

데이터 해석학3 - 관계가 있는 것처럼 보이는 지표를 혼용하는 오류-

1. 관계가 있는 것처럼 보이는 지표를 혼용하지 않는다 데이터 분석 현장에서는 측정하기 어려운 것을 정량화 할 때 '측정하기 쉬운' 지표가 우선적으로 사용되는 경향이 있다. 하지만 이렇게 도입된 지표가 측정하려는 것을 반영하고 있지 않는 경우가 많다. 예를 들어 연구자나 연구기관의 '연구 실적'을 측정할 때, 획득한 연구비의 액수가 고려되는(많으면 많을수록 좋다) 경우가 자주 있지만, 이것은 연구활동의 인풋으로 사용되는 금액이며, 연구의 아웃풋과는 원래 따로 생각해야하는 지표이다. 즉, 사용한 금액에 비례해서 어느 정도 성과를 이루었는지에 대해서는 의미가 있는 지표이다. 이렇게 무엇인가의 아웃풋을 측정하고 싶은데, 측정하기 쉬운 입력과 관계있는 다른 양으로 대체하는 오류는 자주 보이는 오류중 하나이다. ..

정보이론의 기초1 -정보량이란?-

1. 정보이론의 핵심 아이디어 잘 일어나지 않는 사건은 자주 발생하는 사건보다 정보량이 많다. 예를 들어보면 ‘아침에 해가 뜬다’는 정보는 누군가에게 알려줄 필요가 없을 정도로 정보 가치가 없다. 그렇지만 ‘오늘은 4시에 피어세션을 시작한다.’는 정보는 꼭 알아야한다는 측면에서 정보량이 많다고 말할 수 있다. 기본적으로 자주 발생하는 사건은 낮은 정보량을 가진다. 100퍼센트 발생이 보장된 사건은 내용에 무관하게 전혀 정보가 없다 덜 자주 발생하는 사건은 더 높은 정보량을 가진다 독립인 사건은 추가적인 정보량을 가진다. 동전을 던져 앞면이 두 번 나오는 사건에 대한 정보량은 동전을 던져 앞면이 한번 나오는 사건보다 정보량이 두배 많다 2. Shannon의 self information 확률변수 M이 어떤..