정보이론의 기초1 -정보량이란?-
1. 정보이론의 핵심 아이디어
잘 일어나지 않는 사건은 자주 발생하는 사건보다 정보량이 많다.
예를 들어보면 ‘아침에 해가 뜬다’는 정보는 누군가에게 알려줄 필요가 없을 정도로
정보 가치가 없다.
그렇지만 ‘오늘은 4시에 피어세션을 시작한다.’는 정보는 꼭 알아야한다는 측면에서 정보량이 많다고 말할 수 있다.
기본적으로 자주 발생하는 사건은 낮은 정보량을 가진다. 100퍼센트 발생이 보장된 사건은 내용에 무관하게 전혀 정보가 없다
덜 자주 발생하는 사건은 더 높은 정보량을 가진다
독립인 사건은 추가적인 정보량을 가진다. 동전을 던져 앞면이 두 번 나오는 사건에 대한 정보량은 동전을 던져 앞면이 한번 나오는 사건보다 정보량이 두배 많다
2. Shannon의 self information
확률변수 M이 어떤 사건 m을 취할 확률이 $$P(M=m)=p(m)$$이라고 정의하면
사건 m의 self information은
$$I(m)=log( \frac{1}{p(m)} )=-log(p(m))$$
로그의 밑은 일반적으로 자연로그지만 경우에 따라 다른데
정보이론은 컴퓨터에서 사용하는 것을 고려해서 0,1 2가지 경우 bit단위로 사용하므로
즉, 밑을 2로 사용하는 경우가 많다.
3. 예시로 이해해보는 정보량
3-1) 예시1
정보량은 어떤 내용을 표현하기 위해 물어야 하는 최소한의 질문 개수이다.
(근데 난 이게 어렵다)
0과 1만 구분하는 컴퓨터 전기신호에서 동전을 5번 던진 결과를 전송해야 한다고 가정해보자.
“앞면인가요?”라고 묻는다면
1을 보내면 앞면이고 0을 보내면 뒷면이다. 이 질문을 5번만 한다면 원하는 결과를 얻는다.
예를 들어 10110을 보낸다면 (앞면,뒷면,앞면,앞면,뒷면)
그런데 만약 알파벳 6글자를 보내야 한다고 해보자.
어떻게 알파벳 한글자 한글자를 1과 0으로 보낼 수 있는가?
최적의 질문 전략은
그 글자가 26개의 알파벳중 절반(a~m)에 속하는지, 뒤쪽 절반(n~z)에 속하는 지 물어본다.
이렇게 물어보면 최대 5번만 물어보면 1개의 글자를 정확히 추려낼수 있다.
26 >>>>> 13 >>>>>>>> 6.5 >>>>>>>>>>>> 3.25 >>>>>>>>>>>>>>>1.625 >>>>>>>>>0.8125
수식으로 표현하면 알파벳 26개의 글자 중 1글자를 파악하기 위해 물어야하는 질문의 개수를 m개라 하면
$2 ^{m} =26$이고 $m=log _{2} 26$
<6글자를 추려내야하므로 총 질문 수는 $6m=6log _{2} 26$>
정의와 맞춰보면 알파벳 중 1글자를 취할 확률이 1/26이라서 $p(m)= \frac{1}{26}$이어서
컴퓨터에서 알파벳 1글자에 대한 정보량은 $log _{2} \frac{1}{\frac{1}{26}} =log _{2} 26$
6글자에 대한 정보량은 이것의 6배 $6log _{2} 26$
3-2) 예시2
또 하나의 예시를 들어보자.
사건 X=x의 self information은 위에서 정의한대로
$$log \frac{1}{P(X=x)} =-logP(X=x)$$
이것은 영어로 surprisal, ‘놀라움의 정도’라고도 한다
윤대혁이 올해도 연애를 못할 확률이 0.99이면
각 사건의 정보량은
$$I(윤대혁이,연애를,못함)=0.0100503359$$
$$I(윤대혁이,연애를,함)=4.605170186$$
이고 만약 윤대혁이 연애를 했다는 소식을 들으면 윤대혁이 연애를 하지 못했다는 소식을 들은 것에 비해 458배나 놀라는거다.
4. 참조
https://ratsgo.github.io/statistics/2017/09/22/information/
https://en.wikipedia.org/wiki/Quantities_of_information
https://hyunw.kim/blog/2017/10/14/Entropy.html
https://kangbk0120.github.io/articles/2018-03/information-theory
'정보이론' 카테고리의 다른 글
정보이론의 기초3 -KL divergence란?- (0) | 2021.10.10 |
---|---|
정보이론의 기초2 -entropy란?- (0) | 2021.10.09 |